Správy Google BigQuery a Google Data Studio

September 2, 2024

Ako už viete z našej predchádzajúci príspevok na blogu, Daktela ponúka širokú škálu nástrojov na podávanie správ. Aby ste veci zjednodušili, môžete si predstaviť, že Daktela má 2 pobočky nástrojov na výkazníctvo a analytiku:

  1. Štatistiky a analýzy dostupné vo webovej aplikácii Daktela
  2. Riešenie Google

Aj keď je Daktela komplexná webová aplikácia a obsahuje robustné analytické nástroje po vybraní, v niektorých prípadoch môže byť užitočné zvoliť si externú službu. Možno budete chcieť premýšľať o použití jedného, najmä ak:

  • Majú veľké množstvo dát
  • Použite niekoľko PBX
  • Potrebujete spojiť tabuľky
  • Chcete rozšírené filtrovanie údajov zostáv
  • Máte obavy z zaťaženia PBX
  • Vyžadujú rýchlejšie načítavanie

Moderné a supervýkonné riešenie Google je ideálnym kandidátom na tieto účely. Rýchlo sa na to pozrieme v tomto článku.

Všeobecne platí, že riešením je kombinácia dátového ukladania (Google BigQuery), reportovacieho nástroja (Google Data Studio), affiliate služieb (Google Cloud Platform — zabezpečenie, správa, údržba, monitoring) a dátových tokov (Daktela), ktoré tvoria portfólio ETL a BI.

Jasnou výhodou je, že riešenie je prístupné pomocou webového prehliadača. Nie je potrebný žiadny špecializovaný softvér; všetko je k dispozícii z akéhokoľvek počítača pomocou účtu Google s dostatočnými právami. Funkčnosť systému závisí len od rýchlosti pripojenia k internetu.

Daktela — automatická synchronizácia

Pravidelné úlohy sú nastavené na bigquery.daktela.com ktoré transformujú dáta z ústredne ústredne a načítajú ich BigQuery (BQ) v pravidelných intervaloch. Tieto takzvané spustené skripty sú napísané v jazyku Java.

Synchronizačný interval je 120 minút a 24 hodín. Údaje sa načítajú pravidelne každé 2 hodiny a na konci každého dňa o polnoci sa načíta ďalšia konsolidačná dávka, aby sa zabezpečila integrita údajov. Na vybraných ústredniach je možné skrátiť 2-hodinový interval na 1 hodinu.

V ojedinelých prípadoch môžu byť v BQ vytvorené zdanlivo duplicitné položky. Skript spustenia hľadá duplikáty, jeho výstup je monitorovaný a upozornenia sa odosielajú do monitorovacieho softvéru. Duplikáty sa automaticky odstránia počas dennej synchronizácie. To znamená, že nemusíte robiť nič navyše, aby ste boli údaje o prehľadoch aktuálne.

Pretože spustené skripty všetkých projektov pripojených k BQ sú spustené na bigquery.daktela.com server, sú naplánované na spustenie v rôznych časoch, aby si navzájom nekonkurovali a tak sa efektívne využívajú systémové zdroje. To tiež prispieva k relatívne krátkej dobe spracovania. Synchronizačný krok (načítanie hodinovej alebo dennej dávky pre všetky inštancie projektu) je otázkou minút až desiatok minút — zvyčajne 10-30 minút, v extrémnych prípadoch až 60-90 minút. Pri ladení je možné synchronizáciu spustiť aj manuálne.

Všetky skripty vydávajú denník textového súboru.

Prístup k bigquery.daktela.com server je zabezpečený pomocou kľúča SSH. Server spravujú výlučne IT správcovia spoločnosti Daktela, ktorí tiež spravujú prístup používateľov.

Google BigQuery

BigQuery je plne spravovaný bezserverový dátový sklad (DWH), ktorý umožňuje škálovateľnú analýzu extrémne veľkých množstiev dát (v poradí petabajtov: 1PB ≈ 1024 TB ≈ 1 milión GB). Je to platforma ako služba, ktorá podporuje dotazy pomocou ANSI SQL.

Google tiež poskytuje pridružené funkcie, ako je strojové učenie, nástroje na geolokáciu, analytické a štatistické nástroje a správu prístupu používateľov a práv.

Architektúra BigQuery je úplne spravovaná spoločnosťou Google, čo znamená, že používatelia sa nemusia obávať vecí ako škálovateľnosť, distribúcia výpočtovej energie, zálohovanie, údržba atď. Riešenie je jedinečné, pretože jeho dizajn umožňuje prijímať výsledky požiadaviek cez terabajty údajov za sekundy a petabajty za minúty.

To vám umožní načítať prehľady a interaktívne filtrovať a triediť údaje v reálnom čase.

BigQuery nie je len databáza — je to nerelačný online analytický spracovateľský databázový systém optimalizovaný na čítanie a analýzu. Je tiež možné vložiť údaje a pripojiť BQ k externým zdrojom údajov.

Jeho kľúčovými vlastnosťami sú škálovateľnosť, spoľahlivosť, dostupnosť, nízke prevádzkové náklady, možnosti vlastnej opravy a decentralizovaná architektúra. Alternatívami DWH k BQ sú napr. Amazon Redshift a Microsoft Azure SQL.

Údaje v BQ sú usporiadané do súborov údajov (podobných databáze) tvorených tabuľkami, zobrazeniami a inými entitami, ako sú modely strojového učenia. Práva na prístup, úpravu, odstránenie atď. možno nastaviť pre celý súbor údajov alebo pre jednotlivé tabuľky, ktoré sú jeho súčasťou.

Platforma Google Cloud sa používa na správu používateľských účtov a používatelia musia mať aktívny účet Google, aby mohli pracovať s BQ. Všetky prístupy spravujú a kontrolujú správcovia spoločnosti Daktela.

Viac informácií nájdete na úradníkovi Stránka Google Cloud.

Kvóty a limity

Spoločnosť Google obmedzuje maximálne zaťaženie systému nastavením limitov a kvót na dané časové obdobie (napr. počet dotazov, veľkosť prenesených údajov atď.) BQ je určený pre veľké projekty s obrovským množstvom dát a z pohľadu veľkých dát sú aj najväčšie a najkomplexnejšie ústredne Daktela malý a jednoduchý súbor údajov.

Zistite viac o kvótach a limitoch na oficiálna stránka Google.

Dátové štúdio Google

Google Data Studio (DS) je nástroj na vizualizáciu a nahlasovanie údajov podobný Microsoft Power BI alebo Tableau. Je to webová aplikácia s užívateľsky prívetivým rozhraním, kde môžete vytvárať zostavy pridaním tabuliek a grafov a dopĺňať ich textovými a vizuálnymi prvkami.

Data Studio je možné použiť na:

  • Vytváranie a úprava jednotlivých zostáv
  • Správa zostáv, ku ktorým má používateľ prístup
  • Zobrazenie zostáv
  • Vytváranie, úprava a správa zdrojov údajov
  • Správa prístupu k týmto správam a zdrojom údajov

Každá správa sa skladá z:

  • Zdroj údajov
  • Obsah
  • Nastavenia prístupu

Viaceré zostavy môžu používať rovnaký zdroj údajov a správa môže používať niekoľko rôznych zdrojov údajov.

Prístupové práva sa udeľujú v prostredí Google osobitne pre každú službu:

Prístupy a práva BigQuery je možné nastaviť pre každú z nich:

  • Projekt (interné prístupy Daktela)

Prístupy a práva dátového štúdia je možné nastaviť pre každú z nich:

  • Zdieľaný zdroj údajov

V BQ aj DS používateľ vidí iba subjekty, ku ktorým má prístupové práva. Nemajú spôsob, ako zistiť o entitách iných používateľov (súbory údajov, tabuľky, zdroje údajov, správy), kým sa k nim nepokúsia získať prístup prostredníctvom adresy URL.

DataStudio — zdroje údajov

Pojem Zdroj údajov súhrnne označuje:

  • Nastavenie pripojenia zdroja údajov
  • Transformácia a formátovanie prijatých údajov
  • Frekvencia synchronizácie dát
  • Prístupové práva

Všetky tieto položky tvoria entitu Google DS, s ktorou môže používateľ pracovať. Subjekt nie je zdrojom údajov, ale skôr dátovým modelom alebo schémou. Môžete ho tiež považovať za konektor k zdroju údajov, zvyčajne DWH.

Google Data Studio môže pomocou pripojenia k zdroju údajov pripojiť sa k rôznym druhom DWH, od natívnych Google (Google BQ, Google Sheets, Google Analytics, Google Ads, Google Surveys, Google Cloud atď.) až po bežne používané (Microsoft SQL Server, MySQL, PostgreSQL, CSV súbory atď.) až po konektory tretích strán. Kompletný zoznam konektorov je k dispozícii na Google webové stránky.

Pripojením zdroja údajov sa vytvorí nová entita. Definuje:

  • Pripojenie k BigQuery alebo k pôvodu údajov
  • Spýtaná tabuľka alebo špecifikácia SQL
  • Formátovanie rozmerov
  • Agregované metriky
  • Parametre — zvyčajne časové obdobie pre dáta
  • Prístup — ktorý používatelia môžu upraviť zdroj údajov a/alebo upraviť jeho definíciu
  • Frekvencia synchronizácie údajov („čerstvosť dát“) — zvyčajne 1 hodina, v rozmedzí od 1 minúty do 12 hodín
  • Zdieľanie zdrojov údajov — obmedzené na aktuálnu správu alebo povolené zdieľanie vo viacerých prehľadoch

Existujú aj iné spôsoby, ako zúžiť údaje v zostave, okrem priamo v zdroji údajov. Môžete tiež použiť „ovládacie prvky“ a „skryté filtre“, ktoré sú popísané nižšie. Je tiež možné prepojiť jednotlivé zdroje údajov („dátové miešanie“), čím sa poskytuje komplexná agregácia údajov, ktorú by inak bolo ťažké dosiahnuť pre používateľov bez dobrých znalostí SQL.

Každá požiadavka na údaje zo zostavy je preložená do dotazu SQL. Jeho výsledok je dočasne uložený (uložený do vyrovnávacej pamäte) na čas nastavený v „čerstvosti údajov“, čo prináša takmer okamžité časy odozvy a nízke náklady na dotaz.

Vlastník zostavy sa automaticky stáva vlastníkom zdroja údajov, ktorý je vytvorený v zostave. Môžete pridať zdieľané zdroje údajov z vašich vlastných zostáv do iných zostáv, ktoré vlastníte. Ak chcete používať a upravovať zdroje údajov vo vlastníctve iných používateľov, musíte požiadať o povolenie vlastníka a musia ho udeliť.

Ak odstránite vložený zdroj údajov zo zostavy, odstráni sa. Ak odstránite zdieľaný zdroj údajov zo zostavy, nebude odstránený.

DataStudio — správy

Po nastavení zdroja údajov môžete vytvoriť zostavu pridaním grafov, kde môžete vybrať dimenziu a/alebo metriky zo zdroja údajov. Ak chcete, aby bolo rozloženie čo najjasnejšie, môžete pridať viac stránok zostavy a pridať ďalšie prvky, ako je text a obrázky.

Polia

Pole je stĺpec údajov. Existujú 2 rôzne typy: rozmery a metriky. Rozmery obsahujú kategórie alebo entity, ktoré chcete merať. Metriky popisujú rozmery pomocou čísla.

Okrem polí automaticky načítaných zo zdroja údajov si môžete vytvoriť vlastné pole pomocou:

  • Kombinácia rozmerov na vytvorenie novej dimenzie
  • Kombinácia metrík navzájom alebo s dimenziou na vytvorenie novej metriky

Rozmery

Dimenzia je kategória informácií alebo údajov, alebo presnejšie dátové pole. Napríklad pri meraní návštevnosti webových stránok môžu byť niektoré dimenzie Prehliadač, webová stránka, Jazyk atď. Ak používate databázový alebo tabuľkový zdroj údajov, dimenzia predstavuje stĺpec vašej tabuľky.

V DS môžete zmeniť názov, typ údajov (text, číslo, dátum atď.) a popis každej dimenzie.

Metriky

Metrika je súhrnný výpočet alebo operácia aplikovaná na súbor údajov, napr. počet položiek, súčet, maximum, minimum, priemer atď. Je analogická agregovanej funkcii v dotaze SQL.

Rozmery a metriky môžete kombinovať vo svojich grafoch a tabuľkách.

Grafy

K dispozícii sú nasledujúce:

  • Tabuľky (pravidelné a otočné)
  • Grafy
  • Scorecards — prvky s jednou metrikou

Filtre

Filtrovanie v DS sa interpretuje na pozadí ako úprava zdroja údajov SQL. V dôsledku toho dostanete rovnaké údaje bez ohľadu na to, či použijete filter pri vstupe údajov do DS (definícia dotazu SQL) alebo na úrovni prvku zostavy (skrytý filter grafu alebo tabuľky), alebo ak osoba, ktorá prezerá zostavu, použije filter (užívateľský filter = kontrolný prvok). Filtre budú vždy preložené do dotazov SQL v BQ.

Správnym použitím filtrov však môžete dosiahnuť rýchlejšie časy načítania. Odporúča sa definovať konkrétny dotaz SQL pre celý zdroj údajov a prijímať iba relevantné údaje namiesto požadovania celej tabuľky a filtrovania na úrovni zostavy. To tiež šetrí čas pri načítavaní a správe dostupných komponentov počas procesu úpravy zostavy.

Ostatné prvky

Ďalšie prvky, ktoré môžete pridať do svojich zostáv:

  • Odkazy
  • Obrázky
  • Externý obsah — vložená adresa URL
  • Parametre (časové obdobie, e-mailová adresa návštevníka, vlastné parametre)

Keďže zostavy sú umiestnené na konkrétnej adrese URL, je možné vložiť zostavy do vašich online dokumentov, webových stránok atď.

DataStudio — prístupy

Existujú dva rôzne typy prístupov:

  1. Zobrazenie
  2. Upraviť

Používatelia s prístupom k zobrazeniu nemôžu vykonať žiadne zmeny v rozložení alebo nastaveniach zostavy. Môžu komunikovať iba so zostavou a zvyčajne ju exportovať do PDF, vytlačiť ju alebo vytvoriť kópiu (ktorú potom môžu upraviť, t.j. tiež zistiť, ako bola vytvorená).

Používatelia s prístupom k úprave môžu upravovať obsah zostavy a meniť jeho nastavenia. Vlastník zostavy môže spravovať ďalšie vlastnosti prístupu, napríklad zabrániť iným používateľom pridávať ďalších používateľov.

Prístup môžete povoliť aj pomocou odkazu. To by zmenilo vyššie uvedené na:

  1. Zdieľanie odkazov vypnuté — prístup budú mať iba zadaní používatelia
  2. Zdieľanie odkazov na — určení používatelia majú prístup, plus:
    • 2.1. Každý v skupine s odkazom môže zobraziť (napr. iba používatelia vo vašej spoločnosti)
    • 2.2. Každý v skupine s odkazom môže upraviť
    • 2.3. Každý, kto má odkaz, môže zobraziť
    • 2.4. Každý, kto má odkaz, môže upraviť
    • 2.5. Ktokoľvek na internete môže nájsť správu a prezrieť si ju (aj bez odkazu)
    • 2.6. Ktokoľvek na internete môže nájsť správu a upraviť ju (aj bez odkazu)

Ak sa chcete vyhnúť tomu, aby ste museli nastavovať rôzne úrovne prístupu k vašim zostavám, môžete ich nastaviť na hodnotu 2.3 alebo 2.5, ale neodporúčame to, ak vaše správy obsahujú citlivé informácie. Nie je možné zobraziť konkrétnu návštevnosť prehľadov — Google Analytics zobrazí iba anonymizované informácie.

Prístup k zdrojovým údajom je opísaný vyššie.

Pre prístup k aktuálnej a interaktívnej verzii zostavy musí používateľ vedieť buď:

  1. jeho URL, alebo
  2. Presný názov správy a jej vlastník. Voliteľne môže zostava PDF obsahovať odkaz na online alebo vloženú verziu zostavy.

Ak používateľ pozná adresu URL zostavy a má prístup k zostave, prehliadač ju zobrazí. Ak nemajú prístup, otvorí sa dialógové okno, ktoré ich informuje, že musia požiadať majiteľa o prístup. Používateľ si môže vybrať, aký typ prístupu chce požiadať. Majiteľ dostane upozornenie a po udelení prístupu bude môcť používateľ prehľad otvoriť. Ak používateľ nepozná adresu URL zostavy, musí kontaktovať vlastníka zostavy iným spôsobom. Majiteľ potom musí manuálne nájsť správu a udeliť používateľovi prístup k nej.

Správy v PDF môžu byť chránené heslom, ale môžu byť zdieľané ako akýkoľvek iný typ súboru. Aby sa zabránilo neoprávnenému zdieľaniu, vlastník zostavy môže zabrániť ostatným používateľom exportovať zostavu do formátu PDF. Tým sa tiež vypne tlač a kopírovanie.

Nakoniec môžete použiť aj distribuované zdieľanie zostáv pomocou pravidelne odosielaných automaticky generovaných e-mailov, ktoré obsahujú:

  • odkaz na aktuálnu verziu správy
  • ukážka prehľadu (zvyčajne prvých pár strán)
  • prílohu s kópiou správy vo formáte PDF s údajmi od dňa odoslania správy

Koncoví príjemcovia môžu e-mail poslať iným osobám. Ak niektorí používatelia nemajú prístup k zostave, po otvorení adresy URL zostavy budú môcť požiadať o prístup. Stále budú môcť otvoriť prehľad PDF.

Táto metóda však môže byť užitočná, ak chcete zostavu distribuovať ľuďom mimo vašej organizácie.

Latest articles