Správy Google BigQuery a Google Data Studio

23. augusta 2024

Ako už viete z nášho predchádzajúceho príspevku na blogu, Daktela ponúka širokú škálu nástrojov na vykazovanie. Aby sme to zjednodušili, môžete si predstaviť, že spoločnosť Daktela má 2 vetvy nástrojov Reporting a Analytické nástroje:

  1. Štatistiky a analytika dostupné vo webovej aplikácii Daktela
  2. Riešenie Google

Hoci je Daktela komplexná webová aplikácia a obsahuje robustné analytické nástroje, v niektorých prípadoch môže byť užitočné zvoliť si externú službu. O jej použití môžete uvažovať najmä vtedy, ak:

  • majú veľké množstvo údajov
  • Používanie viacerých pobočkových ústrední
  • Potreba spojiť tabuľky
  • Chcete rozšírené filtrovanie údajov v správe
  • Obávate sa zaťaženia pobočkovej ústredne
  • Vyžadujú rýchlejšie načítanie

Moderné a mimoriadne výkonné riešenie Google je na tieto účely ideálnym kandidátom. V tomto článku sa naň v krátkosti pozrieme.

Riešenie je vo všeobecnosti kombináciou dátového úložiska (Google BigQuery), nástroja na vytváranie reportov (Google Data Studio), pridružených služieb (Google Cloud Platform - bezpečnosť, správa, údržba, monitorovanie) a dátových tokov (Daktela), ktoré tvoria portfólio ETL a BI.

Jasnou výhodou je, že riešenie je prístupné pomocou webového prehliadača. Nie je potrebný žiadny špecializovaný softvér, všetko je dostupné z akéhokoľvek počítača pomocou účtu Google s dostatočnými právami. Funkčnosť systému závisí len od rýchlosti internetového pripojenia.

Daktela - automatická synchronizácia

Na stránke bigquery.daktela.com sú nastavené pravidelné úlohy, ktoré v pravidelných intervaloch transformujú údaje z PBX a načítavajú ich do BigQuery (BQ ). Tieto takzvané spúšťacie skripty sú napísané v jazyku Java.

Interval synchronizácie je 120 minút a 24 hodín. Údaje sa načítavajú pravidelne každé 2 hodiny a na konci každého dňa o polnoci sa načíta ďalšia konsolidačná dávka, aby sa zabezpečila integrita údajov. Na vybraných telefónnych ústredniach je možné skrátiť 2-hodinový interval na 1 hodinu.

V ojedinelých prípadoch sa môžu v systéme BQ vytvoriť zdanlivo duplicitné záznamy. Spustený skript vyhľadáva duplicity, jeho výstup sa monitoruje a do monitorovacieho softvéru sa posielajú oznámenia. Duplikáty sa automaticky odstránia počas dennej synchronizácie. To znamená, že nemusíte robiť nič navyše, aby ste udržiavali údaje v hláseniach aktuálne.

Keďže skripty všetkých projektov pripojených k BQ sú spustené na serveri bigquery.daktela.com , ich spúšťanie je naplánované v rôznych časoch, aby si navzájom nekonkurovali a aby sa efektívne využívali systémové zdroje. To tiež prispieva k relatívne krátkemu času spracovania. Krok synchronizácie (načítanie hodinovej alebo dennej dávky pre všetky inštancie projektu) je otázkou minút až desiatok minút - zvyčajne 10 - 30 minút, v extrémnych prípadoch až 60 - 90 minút. Pri ladení je možné synchronizáciu spustiť aj manuálne.

Všetky skripty vypisujú protokol textového súboru.

Prístup na server bigquery.daktela.com je zabezpečený pomocou kľúča SSH. Server spravujú výhradne správcovia IT spoločnosti Daktela, ktorí spravujú aj prístup používateľov.

Google BigQuery

BigQuery je plne spravovaný dátový sklad (DWH) bez servera, ktorý umožňuje škálovateľnú analýzu extrémne veľkého množstva údajov (rádovo v petabajtoch: 1 PB ≈ 1024 TB ≈ 1 milión GB). Ide o platformu ako službu, ktorá podporuje vyhľadávanie pomocou jazyka ANSI SQL.

Spoločnosť Google poskytuje aj pridružené funkcie, ako je strojové učenie, nástroje na určovanie geografickej polohy, analytické a štatistické nástroje a správa prístupu a práv používateľov.

Architektúra BigQuery je úplne spravovaná spoločnosťou Google, čo znamená, že používatelia sa nemusia starať o veci, ako je škálovateľnosť, distribúcia výpočtového výkonu, zálohovanie, údržba atď. Riešenie je jedinečné, pretože jeho konštrukcia umožňuje získať výsledky požiadaviek nad terabajtmi dát za niekoľko sekúnd a nad petabajtmi dát za niekoľko minút.

To vám umožní načítať zostavy a interaktívne filtrovať a triediť údaje v reálnom čase.

BigQuery nie je len databáza - je to nerelačný online databázový systém na analytické spracovanie optimalizovaný na čítanie a analýzu. Je tiež možné vkladať údaje a pripojiť BQ k externým zdrojom údajov.

Jeho kľúčovými vlastnosťami sú škálovateľnosť, spoľahlivosť, dostupnosť, nízke prevádzkové náklady, možnosť samoopravy a decentralizovaná architektúra. Alternatívami DWH k BQ sú napríklad Amazon Redshift a Microsoft Azure SQL.

Údaje v systéme BQ sú usporiadané do súborov údajov (podobne ako v databáze), ktoré sa skladajú z tabuliek, pohľadov a iných entít, ako sú modely strojového učenia. Práva na prístup, úpravu, vymazanie atď. možno nastaviť pre celú sadu údajov alebo pre jednotlivé tabuľky, ktoré sú jej súčasťou.

Na správu používateľských účtov sa používa platforma Google Cloud a používatelia musia mať aktívne konto Google, aby mohli pracovať s aplikáciou BQ. Všetky prístupy spravujú a kontrolujú správcovia spoločnosti Daktela.

Viac informácií nájdete na oficiálnej stránke Google Cloud.

Kvóty a obmedzenia

Spoločnosť Google obmedzuje maximálne zaťaženie systému nastavením limitov a kvót na dané časové obdobie (napr. počet dopytov, veľkosť prenesených údajov atď.) BQ je vytvorená pre veľké projekty s obrovským množstvom údajov a z hľadiska veľkých údajov sú aj tie najväčšie a najzložitejšie ústredne Daktela malým a jednoduchým súborom údajov.

Viac informácií o kvótach a obmedzeniach nájdete na oficiálnej stránke Google.

Dátové štúdio Google

Google Data Studio (DS) je nástroj na vizualizáciu údajov a vytváranie správ podobný nástrojom Microsoft Power BI alebo Tableau. Je to webová aplikácia s používateľsky prívetivým rozhraním, v ktorej môžete vytvárať zostavy pridávaním tabuliek a grafov a dopĺňať ich textovými a vizuálnymi prvkami.

Data Studio možno použiť na:

  • Vytváranie a úprava jednotlivých správ
  • Správa správ, ku ktorým má používateľ prístup
  • Zobrazenie správ
  • Vytváranie, úprava a správa zdrojov údajov
  • Správa prístupu k týmto správam a zdrojom údajov

Každá správa sa skladá z:

  • Zdroj údajov
  • Obsah
  • Nastavenia prístupu

Viacero zostáv môže používať ten istý zdroj údajov a jedna zostava môže používať niekoľko rôznych zdrojov údajov.

Prístupové práva sa v prostredí Google udeľujú pre každú službu samostatne:

Pre každý z nich je možné nastaviť prístupy a práva BigQuery:

  • Projekt (interné prístupy Daktela)

Pre každú z nich je možné nastaviť prístupy a práva v Data Studio:

  • Spoločný zdroj údajov

V systéme BQ aj DS vidí používateľ len tie entity, ku ktorým má prístupové práva. Nemá možnosť zistiť o entitách iných používateľov (dátové súbory, tabuľky, zdroje údajov, zostavy), kým sa k nim nepokúsi získať prístup prostredníctvom adresy URL.

DataStudio - zdroje údajov

Pojem Zdroj údajov sa súhrnne vzťahuje na:

  • Nastavenie pripojenia zdroja údajov
  • Transformácia a formátovanie prijatých údajov
  • Frekvencia synchronizácie údajov
  • Prístupové práva

Všetky tieto položky tvoria entitu služby Google DS, s ktorou môže používateľ pracovať. Entita nie je zdroj údajov, ale skôr dátový model alebo schéma. Môžete si ju tiež predstaviť ako konektor k zdroju údajov, zvyčajne DWH.

Google Data studio môže použiť pripojenie k zdroju údajov na pripojenie k rôznym typom DWH, od natívnych typov Google (Google BQ, Google Sheets, Google Analytics, Google Ads, Google Surveys, Google Cloud atď.) cez bežne používané (Microsoft SQL Server, MySQL, PostgreSQL, súbory CSV atď.) až po konektory tretích strán. Úplný zoznam konektorov je k dispozícii na stránke Google na webovej stránke ..

Pripojením zdroja údajov sa vytvorí nová entita. Definuje:

  • Pripojenie k BigQuery alebo k pôvodu údajov
  • Dotazovaná tabuľka alebo špecifikácia SQL
  • Formátovanie rozmerov
  • Agregované metriky
  • Parametre - zvyčajne časové obdobie pre údaje
  • Prístup - ktorí používatelia môžu upravovať zdroj údajov a/alebo upravovať jeho definíciu
  • Frekvencia synchronizácie údajov ("čerstvosť údajov") - zvyčajne 1 hodina, od 1 minúty do 12 hodín
  • Zdieľanie zdroja údajov - obmedzené na aktuálnu správu alebo povolené zdieľanie vo viacerých správach

Existujú aj iné spôsoby zúženia údajov v zostave ako priamo v zdroji údajov. Môžete použiť aj "ovládacie prvky" a "skryté filtre", ktoré sú opísané nižšie. Je tiež možné prepojiť jednotlivé zdroje údajov ("miešanie údajov"), čím sa zabezpečí komplexná agregácia údajov, ktorá by inak bola pre používateľov bez dobrých znalostí jazyka SQL ťažko dosiahnuteľná.

Každá požiadavka na údaje zo zostavy sa prekladá na dotaz SQL. Jeho výsledok sa dočasne uloží (do vyrovnávacej pamäte) na dobu nastavenú v "čerstvosti údajov", čo prináša takmer okamžité časy odozvy a nízke náklady na jeden dotaz.

Vlastník zostavy sa automaticky stáva vlastníkom zdroja údajov, ktorý je v zostave vytvorený. Zdieľané zdroje údajov z vlastných zostáv je možné pridať do iných zostáv, ktoré vlastníte. Ak chcete používať a upravovať zdroje údajov, ktoré vlastnia iní používatelia, musíte požiadať vlastníka o povolenie a ten vám ho musí udeliť.

Ak zo zostavy odstránite vložený zdroj údajov, odstráni sa. Ak zo zostavy odstránite zdieľaný zdroj údajov, nevymaže sa.

DataStudio - správy

Po nastavení zdroja údajov môžete vytvoriť zostavu pridaním grafov, v ktorých môžete vybrať dimenziu a/alebo metriky zo zdroja údajov. Aby bolo rozloženie čo najprehľadnejšie, môžete pridať viacero stránok zostavy a pridať ďalšie prvky, napríklad text a obrázky.

Polia

Pole je dátový stĺpec. Existujú 2 rôzne typy: dimenzie a metriky. Dimenzie obsahujú kategórie alebo entity, ktoré chcete merať. Metriky popisujú dimenzie pomocou čísla.

Okrem polí automaticky načítaných zo zdroja údajov môžete vytvoriť vlastné pole:

  • Kombinácia rozmerov na vytvorenie nového rozmeru
  • Kombinovanie metrík navzájom alebo s dimenziou na vytvorenie novej metriky

Rozmery

Dimenzia je kategória informácií alebo údajov, presnejšie dátové pole. Napr. pri meraní návštevnosti webových stránok by niektoré dimenzie mohli byť prehliadač, webová stránka, jazyk atď. Ak používate zdroj údajov založený na databáze alebo tabuľke, dimenzia predstavuje stĺpec vašej tabuľky.

V systéme DS môžete zmeniť názov, typ údajov (text, číslo, dátum atď.) a popis každej dimenzie.

Metriky

Metrika je súhrnný výpočet alebo operácia použitá na súbor údajov, napr. počet položiek, súčet, maximum, minimum, priemer atď. Je to obdoba agregačnej funkcie v dotaze SQL.

V grafoch a tabuľkách môžete kombinovať rozmery a metriky.

Grafy

K dispozícii sú tieto možnosti:

  • Tabuľky (bežné a otočné)
  • Grafy
  • Hodnotiace karty - prvky s jednou metrikou

Filtre

Filtrovanie v systéme DS sa na pozadí interpretuje ako úprava SQL zdroja údajov. V dôsledku toho dostanete rovnaké údaje bez ohľadu na to, či filter použijete pri vstupe údajov do DS (definícia SQL dopytu) alebo na úrovni prvku zostavy (skrytý filter grafu alebo tabuľky), alebo ak filter použije osoba, ktorá si zostavu prezerá (užívateľský filter = kontrolný prvok). Filtre sa v BQ vždy preložia do SQL dotazov.

Správnym použitím filtrov však môžete dosiahnuť rýchlejšie načítanie. Odporúča sa definovať špecifický dotaz SQL pre celý zdroj údajov a prijímať len relevantné údaje namiesto vyžiadania celej tabuľky a filtrovania na úrovni zostavy. Tým sa tiež ušetrí čas pri načítavaní a správe dostupných komponentov počas procesu úpravy zostavy.

Ostatné prvky

Ďalšie prvky, ktoré môžete pridať do svojich správ:

  • Odkazy
  • Obrázky
  • Externý obsah - vložená adresa URL
  • Parametre (časové obdobie, e-mailová adresa návštevníka, vlastné parametre)

Keďže správy sú na konkrétnej adrese URL, je možné ich vložiť do online dokumentov, webových stránok atď.

DataStudio - prístupy

Existujú dva rôzne typy prístupov:

  1. Zobraziť
  2. Upraviť

Používatelia s prístupom Zobraziť nemôžu vykonávať žiadne zmeny v rozložení alebo nastaveniach zostavy. Môžu len interagovať s výkazom a zvyčajne ho exportovať do formátu PDF, vytlačiť alebo vytvoriť kópiu (ktorú potom môžu upravovať, t. j. tiež zistiť, ako bola vytvorená).

Používatelia s prístupom Upraviť môžu upravovať obsah správy a meniť jej nastavenia. Vlastník zostavy môže spravovať ďalšie vlastnosti prístupu, napríklad zabrániť ostatným používateľom pridávať ďalších používateľov.

Prístup môžete povoliť aj pomocou prepojenia. Tým by sa vyššie uvedené zmenilo na:

  1. Zdieľanie odkazov vypnuté - prístup budú mať len zadaní používatelia
  2. Zdieľanie odkazov zapnuté - prístup majú zadaní používatelia a navyše:
    • 2.1. Každý v skupine s odkazom môže zobraziť (napr. len používatelia vo vašej spoločnosti)
    • 2.2. Každý v skupine s odkazom môže upravovať
    • 2.3. Každý, kto má odkaz, si môže pozrieť
    • 2.4. Každý, kto má odkaz, môže upravovať
    • 2.5. Správu si môže nájsť a pozrieť každý na internete (aj bez odkazu)
    • 2.6. Ktokoľvek na internete môže nájsť správu a upraviť ju (aj bez odkazu)

Ak sa chcete vyhnúť nastaveniu rôznych úrovní prístupu k správam, môžete nastaviť hodnotu 2.3 alebo 2.5, ale neodporúčame to, ak vaše správy obsahujú citlivé informácie. Nie je možné zobraziť konkrétnu návštevnosť zostáv - služba Google Analytics zobrazí len anonymizované informácie.

Prístup k zdrojovým údajom je opísaný vyššie.

Na prístup k aktuálnej a interaktívnej verzii správy musí používateľ vedieť:

  1. Jeho adresa URL alebo
  2. Presný názov správy a jej vlastníka. Voliteľne môže správa vo formáte PDF obsahovať odkaz na online alebo vloženú verziu správy.

Ak používateľ pozná adresu URL správy a má k nej prístup, prehliadač ju zobrazí. Ak prístup nemá, otvorí sa dialógové okno s informáciou, že musí požiadať vlastníka o prístup. Používateľ si môže vybrať, o aký typ prístupu chce požiadať. Vlastník dostane oznámenie a po udelení prístupu bude môcť používateľ otvoriť výkaz. Ak používateľ nepozná adresu URL správy, musí kontaktovať vlastníka správy iným spôsobom. Vlastník potom musí ručne nájsť správu a udeliť používateľovi prístup k nej.

Správy vo formáte PDF môžu byť chránené heslom, ale možno ich zdieľať ako akýkoľvek iný typ súboru. Aby sa zabránilo neoprávnenému zdieľaniu, vlastník zostavy môže zabrániť ostatným používateľom exportovať zostavu do PDF. Tým sa vypne aj funkcia Tlač a kopírovanie.

Nakoniec môžete použiť aj distribuované zdieľanie správ pomocou pravidelne odosielaných automaticky generovaných e-mailov, ktoré obsahujú:

  • odkaz na aktuálnu verziu správy
  • náhľad správy (zvyčajne prvých niekoľko strán).
  • prílohu s kópiou správy vo formáte PDF s údajmi zo dňa odoslania správy

Koncoví príjemcovia môžu e-mail poslať ďalej. Ak niektorí používatelia nemajú prístup k správe, po otvorení adresy URL správy budú môcť požiadať o prístup. Napriek tomu budú môcť otvoriť správu vo formáte PDF.

Táto metóda však môže byť užitočná, ak potrebujete správu distribuovať ľuďom mimo vašej organizácie.

Najnovšie články