Reporty Google BigQuery a Google Data Studio

23. srpna 2024

Jak již víte z našich předchozí příspěvek na blogu, Daktela nabízí širokou škálu reportovacích nástrojů. Pro zjednodušení si můžete Daktela představit jako 2 větve nástrojů pro reportování a analytické nástroje:

  1. Statistiky a analytika dostupné ve webové aplikaci Daktela
  2. Řešení Google

Přestože Daktela je komplexní webová aplikace a obsahuje robustní analytické nástroje, v některých případech může být užitečné zvolit externí službu. O jejím použití můžete uvažovat zejména v případě, že:

  • mají velké množství dat
  • Použití několika pobočkových ústředen
  • Potřeba spojit tabulky
  • Chcete pokročilé filtrování dat sestavy
  • Máte obavy ze zatížení pobočkové ústředny
  • Požadavek na rychlejší načítání

Moderní a velmi výkonné řešení Google je pro tyto účely ideálním kandidátem. V tomto článku se na něj krátce podíváme.

Obecně je řešení kombinací datového úložiště (Google BigQuery), reportovacího nástroje (Google Data Studio), přidružených služeb (Google Cloud Platform - zabezpečení, správa, údržba, monitorování) a datových toků (Daktela), které tvoří portfolio ETL a BI.

Jasnou výhodou je, že řešení je přístupné pomocí webového prohlížeče. Není potřeba žádný specializovaný software, vše je dostupné z jakéhokoli počítače pomocí účtu Google s dostatečnými právy. Provozuschopnost systému závisí pouze na rychlosti internetového připojení.

Daktela - automatická synchronizace

Na webu bigquery.daktela.com jsou nastaveny pravidelné úlohy, které v pravidelných intervalech transformují data z ústředen a načítají je do BigQuery (BQ ). Tyto tzv. spouštěcí skripty jsou napsány v jazyce Java.

Interval synchronizace je 120 minut a 24 hodin. Data se načítají pravidelně každé 2 hodiny a na konci každého dne o půlnoci se načte další konsolidační dávka, aby byla zajištěna integrita dat. U vybraných ústředen je možné zkrátit dvouhodinový interval na 1 hodinu.

V ojedinělých případech mohou být v systému BQ vytvořeny zdánlivě duplicitní záznamy. Spuštěný skript vyhledává duplicity, jeho výstup je monitorován a oznámení jsou zasílána monitorovacímu softwaru. Duplikáty jsou automaticky odstraněny během denní synchronizace. To znamená, že nemusíte dělat nic navíc, abyste udrželi data hlášení aktuální.

Protože spouštěcí skripty všech projektů připojených k systému BQ jsou spuštěny na serveru bigquery.daktela.com , je jejich spouštění naplánováno na různou dobu, aby si vzájemně nekonkurovaly a systémové prostředky byly efektivně využity. To také přispívá k relativně krátké době zpracování. Synchronizační krok (načtení hodinové nebo denní dávky pro všechny instance projektu) je otázkou minut až desítek minut - typicky 10-30 minut, v extrémních případech až 60-90 minut. Při ladění lze synchronizaci spustit i ručně.

Výstupem všech skriptů je protokol textového souboru.

Přístup k serveru bigquery.daktela.com je zabezpečen pomocí klíče SSH. Server spravují výhradně správci IT společnosti Daktela, kteří také spravují přístup uživatelů.

Google BigQuery

BigQuery je plně spravovaný datový sklad (DWH) bez serveru, který umožňuje škálovatelnou analýzu extrémně velkých objemů dat (v řádu petabajtů: 1PB ≈ 1024 TB ≈ 1 milion GB). Jedná se o platformu jako službu, která podporuje dotazování pomocí jazyka ANSI SQL.

Google také poskytuje přidružené funkce, jako je strojové učení, nástroje pro geolokaci, analytické a statistické nástroje a správa přístupu a práv uživatelů.

Architektura BigQuery je zcela spravována společností Google, což znamená, že uživatelé se nemusí starat o věci, jako je škálovatelnost, distribuce výpočetního výkonu, zálohování, údržba atd. Řešení je jedinečné, protože jeho konstrukce umožňuje získat výsledky požadavků nad terabajty dat během několika sekund a nad petabajty během několika minut.

To vám umožní načítat sestavy a interaktivně filtrovat a třídit data v reálném čase.

BigQuery není jen databáze - je to nerelační online databázový systém pro analytické zpracování optimalizovaný pro čtení a analýzu. Je také možné vkládat data a propojit BQ s externími zdroji dat.

Jeho klíčovými vlastnostmi jsou škálovatelnost, spolehlivost, dostupnost, nízké provozní náklady, možnost samoopravy a decentralizovaná architektura. Alternativami DWH k BQ jsou například Amazon Redshift a Microsoft Azure SQL.

Data v systému BQ jsou uspořádána do datových sad (podobně jako v databázi), které se skládají z tabulek, pohledů a dalších entit, jako jsou modely strojového učení. Práva k přístupu, úpravám, mazání atd. lze nastavit pro celou datovou sadu nebo pro jednotlivé tabulky, které jsou její součástí.

Ke správě uživatelských účtů se používá platforma Google Cloud a uživatelé musí mít aktivní účet Google, aby mohli pracovat se službou BQ. Všechny přístupy spravují a kontrolují správci společnosti Daktela.

Další informace najdete na oficiální Google Cloud.

Kvóty a limity

Společnost Google omezuje maximální zatížení systému nastavením limitů a kvót pro dané časové období (např. počet dotazů, velikost přenesených dat atd.) BQ je vytvořen pro velké projekty s obrovským množstvím dat a z hlediska velkých dat jsou i ty největší a nejsložitější ústředny Daktela malou a jednoduchou datovou sadou.

Další informace o kvótách a limitech najdete na oficiální stránce Google.

Datové studio Google

Google Data Studio (DS) je nástroj pro vizualizaci dat a vytváření reportů podobný nástrojům Microsoft Power BI nebo Tableau. Jedná se o webovou aplikaci s uživatelsky přívětivým rozhraním, kde můžete vytvářet sestavy přidáváním tabulek a grafů a doplňovat je textovými a vizuálními prvky.

Data Studio lze použít k:

  • Vytváření a úpravy jednotlivých sestav
  • Správa sestav, ke kterým má uživatel přístup
  • Zobrazení zpráv
  • Vytváření, úprava a správa zdrojů dat
  • Správa přístupu k těmto zprávám a zdrojům dat

Každá zpráva se skládá z:

  • Zdroj dat
  • Obsah
  • Nastavení přístupu

Více sestav může používat stejný zdroj dat a jedna sestava může používat několik různých zdrojů dat.

Přístupová práva se v prostředí Google udělují pro každou službu zvlášť:

Pro každý z nich lze nastavit přístupy a práva BigQuery:

  • Projekt (interní přístupy Daktela)

Pro každou z nich lze nastavit přístupy a práva ve Studiu dat:

  • Sdílený zdroj dat

V systému BQ i DS vidí uživatel pouze entity, ke kterým má přístupová práva. O entitách jiných uživatelů (datových sadách, tabulkách, zdrojích dat, sestavách) se nemá jak dozvědět, dokud se k nim nepokusí přistoupit prostřednictvím adresy URL.

DataStudio - zdroje dat

Termín Zdroj dat souhrnně označuje:

  • Nastavení připojení ke zdroji dat
  • Transformace a formátování přijatých dat
  • Frekvence synchronizace dat
  • Přístupová práva

Všechny tyto položky tvoří entitu Google DS, se kterou může uživatel pracovat. Entita není zdrojem dat, ale spíše datovým modelem nebo schématem. Můžete si ji také představit jako konektor ke zdroji dat, typicky DWH.

Google Data studio se může pomocí připojení ke zdroji dat připojit k různým typům DWH, od nativních typů Google (Google BQ, Google Sheets, Google Analytics, Google Ads, Google Surveys, Google Cloud atd.) přes běžně používané (Microsoft SQL Server, MySQL, PostgreSQL, soubory CSV atd.) až po konektory třetích stran. Úplný seznam konektorů je k dispozici na stránce Google ..

Připojením zdroje dat se vytvoří nová entita. Definuje:

  • Připojení k BigQuery nebo původu dat
  • Dotazovaná tabulka nebo specifikace SQL
  • Formátování rozměrů
  • Agregované metriky
  • Parametry - obvykle časové období pro data
  • Přístup - kteří uživatelé mohou upravovat zdroj dat a/nebo upravovat jeho definici.
  • Frekvence synchronizace dat ("čerstvost dat") - obvykle 1 hodina, v rozmezí od 1 minuty do 12 hodin.
  • Sdílení zdroje dat - omezené na aktuální sestavu nebo povolené sdílení ve více sestavách

Existují i jiné způsoby zúžení dat v sestavě než přímo ve zdroji dat. Můžete také použít "ovládací prvky" a "skryté filtry", které jsou popsány níže. Je také možné propojit jednotlivé zdroje dat ("míchání dat") a zajistit tak komplexní agregaci dat, která by jinak byla pro uživatele bez dobrých znalostí SQL obtížně dosažitelná.

Každý požadavek na data ze sestavy je převeden na dotaz SQL. Jeho výsledek je dočasně uložen (cachován) po dobu nastavenou v "čerstvosti dat", což přináší téměř okamžitou dobu odezvy a nízké náklady na jeden dotaz.

Vlastník sestavy se automaticky stává vlastníkem zdroje dat, který je v sestavě vytvořen. Sdílené zdroje dat z vlastních sestav je možné přidávat do jiných sestav, které vlastníte. Chcete-li používat a upravovat zdroje dat vlastněné jinými uživateli, musíte požádat o povolení vlastníka a ten vám ho musí udělit.

Pokud ze sestavy odeberete vložený zdroj dat, bude odstraněn. Pokud ze sestavy odstraníte sdílený zdroj dat, nebude odstraněn.

DataStudio - přehledy

Po nastavení zdroje dat můžete vytvořit sestavu přidáním grafů, do kterých můžete vybrat dimenzi a/nebo metriky ze zdroje dat. Aby bylo rozvržení co nejpřehlednější, můžete přidat více stránek sestavy a přidat další prvky, například text a obrázky.

Pole

Pole je sloupec dat. Existují 2 různé typy: dimenze a metriky. Dimenze obsahují kategorie nebo entity, které chcete měřit. Metriky popisují dimenze pomocí čísla.

Kromě polí automaticky načtených ze zdroje dat můžete vytvořit vlastní pole pomocí:

  • Kombinace rozměrů pro vytvoření nového rozměru
  • Kombinace metrik mezi sebou nebo s dimenzí za účelem vytvoření nové metriky

Rozměry

Dimenze je kategorie informací nebo dat, přesněji datové pole. Např. při měření návštěvnosti webových stránek by některé dimenze mohly být Prohlížeč, Webová stránka, Jazyk atd. Pokud používáte databázový nebo tabulkový zdroj dat, dimenze představuje sloupec vaší tabulky.

V systému DS můžete změnit název, typ dat (text, číslo, datum atd.) a popis každé dimenze.

Metriky

Metrika je souhrnný výpočet nebo operace aplikovaná na soubor dat, např. počet položek, součet, maximum, minimum, průměr atd. Je to obdoba agregační funkce v dotazu SQL.

V grafech a tabulkách můžete kombinovat rozměry a metriky.

Grafy

K dispozici jsou následující položky:

  • Tabulky (běžné a otočné)
  • Grafy
  • Karty výsledků - prvky s jednou metrikou

Filtry

Filtrování v systému DS je na pozadí interpretováno jako úprava SQL zdroje dat. V důsledku toho obdržíte stejná data, ať už filtr použijete při vstupu dat do DS (definice SQL dotazu) nebo na úrovni prvku sestavy (skrytý filtr grafu nebo tabulky), nebo pokud filtr použije osoba, která sestavu prohlíží (uživatelský filtr = kontrolní prvek). Filtry se v BQ vždy převedou na SQL dotazy.

Správným použitím filtrů však můžete dosáhnout rychlejšího načítání. Doporučujeme definovat konkrétní dotaz SQL pro celý zdroj dat a přijímat pouze relevantní data namísto vyžádání celé tabulky a filtrování na úrovni sestavy. To také šetří čas při načítání a správě dostupných komponent během procesu úprav sestavy.

Další prvky

Další prvky, které můžete do sestav přidat:

  • Odkazy
  • Obrázky
  • Externí obsah - vložená adresa URL
  • Parametry (časové období, e-mailová adresa návštěvníka, vlastní parametry)

Vzhledem k tomu, že sestavy jsou na konkrétní adrese URL, je možné je vložit do online dokumentů, webových stránek atd.

DataStudio - přístupy

Existují dva různé typy přístupů:

  1. Zobrazit
  2. Upravit

Uživatelé s přístupem Zobrazení nemohou provádět žádné změny v rozvržení nebo nastavení sestavy. Mohou pouze se sestavou pracovat a obvykle ji exportovat do PDF, vytisknout nebo vytvořit kopii (kterou pak mohou upravovat, tj. také zjistit, jak byla vytvořena).

Uživatelé s přístupem Upravit mohou upravovat obsah sestavy a měnit její nastavení. Vlastník sestavy může spravovat další vlastnosti přístupu, například zabránit ostatním uživatelům v přidávání dalších uživatelů.

Přístup můžete povolit také pomocí odkazu. Tím se výše uvedené změní na:

  1. Sdílení odkazů vypnuto - přístup budou mít pouze zadaní uživatelé
  2. Sdílení odkazů zapnuto - přístup mají zadaní uživatelé a navíc:
    • 2.1. Každý ve skupině s odkazem může zobrazit (např. pouze uživatelé ve vaší společnosti).
    • 2.2. Kdokoli ve skupině s odkazem může upravovat
    • 2.3. Každý, kdo má odkaz, si může prohlédnout
    • 2.4. Každý, kdo má odkaz, může upravovat
    • 2.5. Kdokoli na internetu si může zprávu najít a prohlédnout (i bez odkazu).
    • 2.6. Kdokoli na internetu může zprávu najít a upravit (i bez odkazu).

Pokud se chcete vyhnout nastavování různých úrovní přístupu k sestavám, můžete nastavit hodnotu 2.3 nebo 2.5, ale nedoporučujeme to, pokud vaše sestavy obsahují citlivé informace. Není možné zobrazit konkrétní návštěvnost sestav - Google Analytics zobrazí pouze anonymizované informace.

Přístup ke zdrojovým datům je popsán výše.

Pro přístup k aktuální a interaktivní verzi sestavy musí uživatel znát buď:

  1. Jeho adresa URL nebo
  2. Přesný název zprávy a jejího vlastníka. Volitelně může zpráva ve formátu PDF obsahovat odkaz na online nebo vloženou verzi zprávy.

Pokud uživatel zná adresu URL sestavy a má k ní přístup, prohlížeč ji zobrazí. Pokud přístup nemá, otevře se dialogové okno s informací, že musí požádat vlastníka o přístup. Uživatel může vybrat, o jaký typ přístupu chce požádat. Vlastník obdrží oznámení a po udělení přístupu bude moci uživatel sestavu otevřít. Pokud uživatel nezná adresu URL sestavy, musí vlastníka sestavy kontaktovat jiným způsobem. Vlastník pak musí sestavu ručně vyhledat a udělit uživateli přístup k ní.

Zprávy ve formátu PDF mohou být chráněny heslem, ale lze je sdílet jako jakýkoli jiný typ souboru. Aby se zabránilo neoprávněnému sdílení, může vlastník sestavy zabránit ostatním uživatelům v exportu sestavy do PDF. Tím se také vypne funkce Tisk a kopírování.

Nakonec můžete také využít distribuované sdílení zpráv pomocí pravidelně zasílaných automaticky generovaných e-mailů, které obsahují:

  • odkaz na aktuální verzi zprávy.
  • náhled zprávy (obvykle několik prvních stránek).
  • přílohu s kopií zprávy ve formátu PDF s údaji ze dne odeslání zprávy.

Koncoví příjemci mohou e-mail přeposlat dalším osobám. Pokud někteří uživatelé nemají k sestavě přístup, budou moci po otevření adresy URL sestavy požádat o přístup. Přesto budou moci zprávu ve formátu PDF otevřít.

Tato metoda však může být užitečná, pokud potřebujete zprávu distribuovat lidem mimo vaši organizaci.

Nejnovější články