Rapoartele Google BigQuery și Google Data Studio

September 2, 2024

După cum știți deja de la noi postare anterioară pe blog, Daktela oferă o gamă largă de instrumente de raportare. Pentru a simplifica lucrurile, vă puteți gândi la Daktela ca având 2 ramuri de instrumente de raportare și analiză:

  1. Statistici și analize disponibile în aplicația web Daktela
  2. Soluție Google

În timp ce Daktela este o aplicație web complexă și conține instrumente analitice robuste din cutie, în unele cazuri poate fi util să optați pentru un serviciu extern. Poate doriți să vă gândiți la utilizarea unuia în special dacă:

  • Au cantități mari de date
  • Utilizați mai multe PBX-uri
  • Trebuie să vă alăturați tabelelor
  • Doriți filtrare avansată a datelor raportului
  • Sunt îngrijorați de încărcările PBX
  • Necesită timpi de încărcare mai rapizi

Soluția modernă și super-puternică Google este un candidat ideal pentru aceste scopuri. Vom arunca o privire rapidă asupra acesteia în acest articol.

În general, soluția este o combinație de stocare a datelor (Google BigQuery), instrument de raportare (Google Data Studio), servicii afiliate (Google Cloud Platform — securitate, management, întreținere, monitorizare) și fluxuri de date (Daktela), alcătuind un portofoliu ETL și BI.

Un avantaj clar este că soluția este accesibilă folosind un browser web. Nu este nevoie de software dedicat, totul este disponibil de pe orice computer folosind un cont Google cu drepturi suficiente. Operabilitatea sistemului depinde numai de viteza conexiunii la internet.

Daktela — sincronizare automată

Există sarcini periodice configurate pe bigquery.daktela.com care transformă datele din PBX și le încarcă pe BigQuery (BQ) la intervale regulate. Aceste așa-numite scripturi de rulare sunt scrise în Java.

Intervalul de sincronizare este de 120 de minute și 24 de ore. Datele sunt încărcate periodic la fiecare 2 ore, iar la sfârșitul fiecărei zile, la miezul nopții, se încarcă un alt lot de consolidare pentru a asigura integritatea datelor. Pe PBX-urile selectate, este posibil să scurtați intervalul de 2 ore la 1 oră.

În cazuri izolate, intrările aparent duplicate pot fi create în BQ. Scriptul de rulare caută duplicate, ieșirea sa este monitorizată și notificările sunt trimise către software-ul de monitorizare. Duplicatele sunt eliminate automat în timpul sincronizării zilnice. Aceasta înseamnă că nu trebuie să faceți nimic suplimentar pentru a vă menține datele de raportare actualizate.

Deoarece scripturile de rulare ale tuturor proiectelor conectate la BQ rulează pe bigquery.daktela.com server, sunt programate să ruleze în momente diferite, astfel încât să nu concureze între ele și astfel resursele sistemului sunt utilizate eficient. Acest lucru contribuie, de asemenea, la un timp de procesare relativ scurt. O etapă de sincronizare (încărcarea unui lot orar sau zilnic pentru toate instanțele de proiect) este o chestiune de minute până la zeci de minute - de obicei 10-30 minute, până la 60-90 de minute în cazuri extreme. La depanare, sincronizarea poate fi pornită și manual.

Toate scripturile produc un jurnal de fișiere text.

Accesul la bigquery.daktela.com serverul este securizat folosind o cheie SSH. Serverul este administrat în întregime de administratorii IT Daktela care gestionează și accesul utilizatorilor.

Google BigQuery

BigQuery este un depozit de date complet gestionat, fără server (DWH), care permite analiza scalabilă a unor cantități extrem de mari de date (în ordinul petabytes: 1PB ≈ 1024 TB ≈ 1 milion GB). Este o platformă ca serviciu care acceptă interogarea folosind ANSI SQL.

Google oferă, de asemenea, funcționalități afiliate, cum ar fi învățarea automată, instrumente de geolocalizare, instrumente de analiză și statistici și gestionarea accesului utilizatorilor și a drepturilor.

Arhitectura BigQuery este gestionată în întregime de Google, ceea ce înseamnă că utilizatorii nu trebuie să-și facă griji cu privire la lucruri precum scalabilitatea, distribuția puterii de calcul, backupul, întreținerea etc. Soluția este unică, deoarece designul său vă permite să primiți rezultatele cererilor de peste terabytes de date în câteva secunde și petabytes în câteva minute.

Acest lucru vă permite să încărcați rapoartele și să filtrați și să sortați interactiv datele în timp real.

BigQuery nu este doar o bază de date - este un sistem de baze de date online non-relațional de procesare analitică optimizat pentru citire și analiză. De asemenea, este posibil să inserați date și să conectați BQ la surse de date externe.

Proprietățile sale cheie sunt scalabilitatea, fiabilitatea, disponibilitatea, costurile reduse de funcționare, posibilitățile de auto-reparare și arhitectura descentralizată. Alternativele DWH la BQ sunt, de exemplu, Amazon Redshift și Microsoft Azure SQL.

Datele din BQ sunt organizate în seturi de date (similare cu o bază de date) formate din tabele, vizualizări și alte entități, cum ar fi modelele de învățare automată. Drepturile de acces, editare, ștergere etc. pot fi setate pentru întregul set de date sau pentru tabelele individuale care fac parte din acesta.

Platforma Google Cloud este utilizată pentru a gestiona conturile de utilizator, iar utilizatorii trebuie să aibă un cont Google activ pentru a lucra cu BQ. Toate accesele sunt gestionate și verificate de administratorii Daktela.

Puteți găsi mai multe informații despre oficialul Pagina Google Cloud.

Cote și limite

Google limitează încărcarea maximă a sistemului prin stabilirea unor limite și cote pentru o anumită perioadă de timp (de exemplu, numărul de interogări, dimensiunea datelor transferate etc.) BQ este conceput pentru proiecte mari cu cantități mari de date și dintr-o perspectivă de date mari, chiar și cele mai mari și mai complexe PBX-uri Daktela sunt un set de date mic și simplu.

Aflați mai multe despre cote și limite pe pagina oficială Google.

Studioul de date Google

Google Data Studio (DS) este un instrument de vizualizare și raportare a datelor similar cu Microsoft Power BI sau Tableau. Este o aplicație web cu o interfață ușor de utilizat, unde puteți crea rapoarte adăugând tabele și grafice și le puteți completa cu elemente text și vizuale.

Data Studio poate fi utilizat pentru:

  • Crearea și editarea rapoartelor individuale
  • Gestionarea rapoartelor la care utilizatorul are acces
  • Vizualizarea rapoartelor
  • Crearea, editarea și gestionarea surselor de date
  • Gestionarea accesului la aceste rapoarte și surse de date

Fiecare raport este alcătuit din:

  • O sursă de date
  • Conținutul
  • Setări de acces

Rapoartele multiple pot utiliza aceeași sursă de date, iar un raport poate utiliza mai multe surse de date diferite.

Drepturile de acces sunt acordate separat în mediul Google pentru fiecare serviciu:

Accesele și drepturile BigQuery pot fi configurate pentru fiecare:

  • Proiect (accesuri interne Daktela)

Accesele și drepturile Data Studio pot fi configurate pentru fiecare:

  • Sursă de date partajată

Atât în BQ, cât și în DS, utilizatorul vede doar entitățile la care are drepturi de acces. Nu au nicio modalitate de a afla despre entitățile altor utilizatori (seturi de date, tabele, surse de date, rapoarte) până când nu încearcă să le acceseze printr-o adresă URL.

DataStudio — surse de date

Termenul sursă de date se referă colectiv la:

  • Configurarea conexiunii la sursa de date
  • Transformarea și formatarea datelor primite
  • Frecvența de sincronizare a datelor
  • Drepturi de acces

Toate aceste elemente alcătuiesc o entitate Google DS cu care utilizatorul poate lucra. Entitatea nu este o sursă de date, ci mai degrabă un model de date sau o schemă. De asemenea, vă puteți gândi la acesta ca la un conector la sursa de date, de obicei un DWH.

Google Data studio poate utiliza conexiunea la sursa de date pentru a se conecta la diferite tipuri DWH, de la cele native Google (Google BQ, Google Sheets, Google Analytics, Google Ads, Google Surveys, Google Cloud etc.) la cele utilizate în mod obișnuit (Microsoft SQL Server, MySQL, PostgreSQL, fișiere CSV etc.) la conectori terți. O listă completă de conectori este disponibilă pe Google site web.

Prin conectarea unei surse de date, se creează o nouă entitate. Acesta definește:

  • Conexiune la BigQuery sau la o sursă de date
  • Tabel interogat sau specificație SQL
  • Formatarea dimensiunilor
  • Valori agregate
  • Parametri - de obicei o perioadă de timp pentru date
  • Acces — utilizatorii care pot edita sursa de date și/sau pot edita definiția acesteia
  • Frecvența de sincronizare a datelor („prospețimea datelor”) — de obicei 1 oră, variind de la 1 minut la 12 ore
  • Partajarea surselor de date — limitată la raportul curent sau partajarea permisă în mai multe rapoarte

Există și alte modalități de a restrânge datele dintr-un raport, altele decât direct în sursa de date. De asemenea, puteți utiliza „controale” și „filtre ascunse” descrise mai jos. De asemenea, este posibilă conectarea surselor de date individuale („amestec de date”), oferind o agregare complexă de date care altfel ar fi dificil de realizat pentru utilizatorii fără cunoștințe SQL bune.

Fiecare solicitare de date dintr-un raport este tradusă într-o interogare SQL. Rezultatul său este salvat temporar (memorat în cache) pentru perioada de timp stabilită în „prospețimea datelor”, oferind timpi de răspuns aproape imediați și costuri reduse pe interogare.

Proprietarul raportului devine automat proprietarul sursei de date care este creată în raport. Este posibil să adăugați surse de date partajate din propriile rapoarte la alte rapoarte pe care le dețineți. Pentru a utiliza și edita sursele de date deținute de alți utilizatori, trebuie să solicitați permisiunea proprietarului și acesta trebuie să o acorde.

Dacă eliminați o sursă de date încorporată dintr-un raport, aceasta va fi ștearsă. Dacă eliminați o sursă de date partajată dintr-un raport, aceasta nu va fi ștearsă.

DataStudio — rapoarte

După ce configurați sursa de date, puteți crea un raport adăugând grafice în care puteți selecta dimensiunea și/sau valorile din sursa de date. Pentru a face aspectul cât mai clar posibil, puteți adăuga mai multe pagini de raport și adăugați alte elemente, cum ar fi text și imagini.

Câmpuri

Un câmp este o coloană de date. Există 2 tipuri diferite: dimensiuni și parametri. Dimensiunile conțin categorii sau entități pe care doriți să le măsurați. Valorile descriu dimensiunile folosind un număr.

În afară de câmpurile încărcate automat din sursa de date, puteți crea propriul câmp prin:

  • Combinarea dimensiunilor pentru a crea o nouă dimensiune
  • Combinarea valorilor între ele sau cu o dimensiune pentru a crea o nouă valoare

Dimensiuni

O dimensiune este o categorie de informații sau date, sau mai precis o matrice de date. De exemplu, atunci când se măsoară traficul pe site, unele dimensiuni ar putea fi Browser, Pagină Web, Limbă etc. Dacă utilizați o sursă de date bazată pe baze de date sau tabele, o dimensiune reprezintă o coloană a tabelului.

În DS, puteți modifica titlul, tipul de date (text, număr, dată etc.) și descrierea fiecărei dimensiuni.

Metrică

O metrică este un calcul agregat sau o operație aplicată unui set de date, de exemplu numărul de intrări, suma, maximul, minimul, media etc. Este analog cu o funcție agregată într-o interogare SQL.

Puteți combina dimensiuni și valori în grafice și tabele.

Graficele

Sunt disponibile următoarele:

  • Tabele (regulate și pivot)
  • Diagrame
  • Tablouri de scor — elemente cu o singură metrică

Filtre

Filtrarea în DS este interpretată în fundal ca editarea sursei de date SQL. În consecință, veți primi aceleași date indiferent dacă aplicați un filtru atunci când datele intră în DS (definiția interogării SQL) sau la nivelul elementului de raport (filtrul ascuns al unui grafic sau tabel) sau dacă persoana care vizualizează raportul aplică filtrul (filtru utilizator = element de control). Filtrele vor fi întotdeauna traduse în interogări SQL în BQ.

Cu toate acestea, puteți obține timpi de încărcare mai rapizi aplicând corect filtrele. Este recomandat să definiți o interogare SQL specifică pentru întreaga sursă de date și să primiți numai date relevante, mai degrabă decât să solicitați întregul tabel și să filtrați la nivel de raport. Acest lucru economisește, de asemenea, timp la încărcarea și gestionarea componentelor disponibile în timpul procesului de editare a raportului.

Alte elemente

Alte elemente pe care le puteți adăuga la rapoarte:

  • Link-uri
  • Imagini
  • Conținut extern - URL încorporat
  • Parametrii (perioada de timp, adresa de e-mail a vizitatorului, parametrii proprii)

Deoarece rapoartele sunt la o anumită adresă URL, este posibil să încorporați rapoarte în documentele dvs. online, paginile web etc.

DataStudio — accesează

Există două tipuri diferite de acces:

  1. Vizualizare
  2. Editați

Utilizatorii cu acces Vizualizare nu pot modifica aspectul sau setările raportului. Ei pot interacționa doar cu raportul și, de obicei, îl pot exporta în PDF, îl pot imprima sau crea o copie (pe care apoi o pot edita, adică să afle și cum a fost creat).

Utilizatorii cu acces Editare pot edita conținutul raportului și pot modifica setările acestuia. Proprietarul raportului poate gestiona alte proprietăți de acces, cum ar fi împiedicarea altor utilizatori să adauge mai mulți utilizatori.

De asemenea, puteți permite accesul utilizând un link. Acest lucru ar schimba cele de mai sus în:

  1. Partajarea legăturilor dezactivată - numai utilizatorii specificați vor avea acces
  2. Partajarea linkurilor activată — utilizatorii specificați au acces, plus:
    • 2.1. Oricine dintr-un grup care are linkul poate vizualiza (de exemplu, numai utilizatorii din compania dvs.)
    • 2.2. Oricine dintr-un grup cu linkul poate edita
    • 2.3. Oricine are linkul poate vizualiza
    • 2.4. Oricine are linkul poate edita
    • 2.5. Oricine de pe internet poate găsi raportul și îl poate vizualiza (chiar și fără link)
    • 2.6. Oricine de pe internet poate găsi raportul și îl poate edita (chiar și fără link)

Dacă doriți să evitați să configurați diferite niveluri de acces la rapoarte, îl puteți seta la 2.3 sau 2.5, dar nu vă recomandăm acest lucru dacă rapoartele conțin informații sensibile. Nu este posibilă vizualizarea traficului de rapoarte specifice - Google Analytics va afișa doar informații anonimizate.

Accesul la datele sursă este descris mai sus.

Pentru a accesa versiunea curentă și interactivă a unui raport, un utilizator trebuie să știe fie:

  1. URL-ul său, sau
  2. Titlul exact al raportului și proprietarul acestuia. Opțional, un raport PDF poate conține un link către versiunea online sau încorporată a raportului.

Dacă utilizatorul cunoaște adresa URL a raportului și are acces la raport, browserul îl va afișa. Dacă nu au acces, se va deschide o casetă de dialog, informându-i că trebuie să ceară proprietarului accesul. Utilizatorul poate selecta ce tip de acces dorește să solicite. Proprietarul va primi o notificare și odată ce acordă acces, utilizatorul va putea deschide raportul. Dacă utilizatorul nu cunoaște adresa URL a raportului, trebuie să contacteze proprietarul raportului în alt mod. Proprietarul trebuie apoi să găsească manual raportul și să acorde utilizatorului acces la acesta.

Rapoartele în PDF pot fi protejate prin parolă, dar pot fi partajate ca orice alt tip de fișier. Pentru a preveni partajarea neautorizată, proprietarul raportului poate împiedica alți utilizatori să exporte raportul în PDF. Aceasta dezactivează, de asemenea, Imprimarea și copierea.

În cele din urmă, puteți utiliza, de asemenea, partajarea rapoartelor distribuite folosind e-mailuri generate automat trimise periodic care conțin:

  • un link către versiunea actualizată a raportului
  • o previzualizare a raportului (de obicei primele câteva pagini)
  • un atașament cu o copie PDF a raportului cu date din ziua în care raportul este trimis

Destinatarii finali pot redirecționa e-mailul altor persoane. Dacă utilizatorii nu au acces la raport, atunci când deschid adresa URL a raportului, vor putea solicita acces. Ei vor putea în continuare să deschidă raportul PDF.

Cu toate acestea, această metodă poate fi utilă dacă trebuie să distribuiți raportul persoanelor din afara organizației.

Latest articles