Zprávy Google BigQuery a Google Data Studio

September 2, 2024

Jak již víte z našeho předchozího příspěvku na blogu, Daktela nabízí širokou škálu nástrojů pro podávání zpráv. Abychom to zjednodušili, můžete si představit, že Daktela má 2 pobočky nástrojů pro podávání zpráv a analýzy:

Statistiky a analýzy dostupné ve webové aplikaci Daktela
Řešení Google

Zatímco Daktela je komplexní webová aplikace a obsahuje robustní analytické nástroje po vybalení z krabice, v některých případech může být užitečné zvolit externí službu. Možná budete chtít přemýšlet o použití jednoho, zejména pokud:

Mají velké množství dat
Použijte několik pobočkových ústředen
Potřeba spojit tabulky
Chcete pokročilé filtrování dat sestav
Obávají se zatížení pobočkové ústředny
Vyžadují rychlejší načítání

Moderní a super výkonné řešení Google je pro tyto účely ideálním kandidátem. Rychle se na to podíváme v tomto článku.

Obecně je řešením kombinace datového úložiště (Google BigQuery), reportingového nástroje (Google Data Studio), přidružených služeb (Google Cloud Platform — zabezpečení, správa, údržba, monitoring) a datových toků (Daktela), které tvoří portfolio ETL a BI.

Jasnou výhodou je, že řešení je přístupné pomocí webového prohlížeče. Není potřeba žádný vyhrazený software; vše je k dispozici z jakéhokoli počítače pomocí účtu Google s dostatečnými právy. Provozovatelnost systému závisí pouze na rychlosti vašeho připojení k internetu.

Daktela — automatická synchronizace

Jsou nastaveny pravidelné úkoly bigquery.daktela.com které transformují data z ústředny a načtou je do BigQuery (BQ) v pravidelných intervalech. Tyto takzvané spouštěcí skripty jsou psány v Javě.

Interval synchronizace je 120 minut a 24 hodin. Data se načítají pravidelně každé 2 hodiny a na konci každého dne o půlnoci se načte další konsolidační dávka, aby byla zajištěna integrita dat. Na vybraných ústřednách je možné zkrátit dvouhodinový interval na 1 hodinu.

V ojedinělých případech mohou být v BQ vytvořeny zdánlivě duplicitní položky. Spusťte skript hledá duplikáty, jeho výstup je sledován a oznámení jsou odesílána do monitorovacího softwaru. Duplikáty jsou automaticky odstraněny během denní synchronizace. To znamená, že nemusíte dělat nic navíc, abyste udrželi data hlášení aktuální.

Protože spouštěcí skripty všech projektů připojených k BQ běží na bigquery.daktela.com server, jsou naplánovány na běh v různých časech, takže si navzájem nekonkurují a systémové prostředky jsou využívány efektivně. To také přispívá k relativně krátké době zpracování. Krok synchronizace (načítání hodinové nebo denní dávky pro všechny instance projektu) je otázkou minut až desítek minut — obvykle 10—30 minut, v extrémních případech až 60-90 minut. Při ladění lze synchronizaci spustit také ručně.

Všechny skripty vydávají protokol textového souboru.

Přístup k bigquery.daktela.com Server je zabezpečen pomocí SSH klíče. Server spravují výhradně správci Daktela IT, kteří také spravují přístup uživatelů.

Google BigQuery

BigQuery je plně spravovaný datový sklad bez serveru (DWH), který umožňuje škálovatelnou analýzu extrémně velkých objemů dat (v řádu petabajtů: 1PB ≈ 1024 TB ≈ 1 milion GB). Jedná se o platformu jako službu, která podporuje dotazování pomocí ANSI SQL.

Google také poskytuje přidružené funkce, jako je strojové učení, nástroje pro geolokaci, analytické a statistické nástroje a správu přístupu uživatelů a práv.

Architektura BigQuery je zcela spravována společností Google, což znamená, že se uživatelé nemusí starat o věci, jako je škálovatelnost, distribuce výpočetního výkonu, zálohování, údržba atd. Řešení je jedinečné, protože jeho design umožňuje přijímat výsledky požadavků přes terabajty dat během několika sekund a petabajty během několika minut.

To vám umožní načíst zprávy a interaktivně filtrovat a třídit data v reálném čase.

BigQuery není jen databáze - je to nerelační online analytický databázový systém optimalizovaný pro čtení a analýzu. Je také možné vložit data a připojit BQ k externím zdrojům dat.

Jeho klíčovými vlastnostmi jsou škálovatelnost, spolehlivost, dostupnost, nízké provozní náklady, možnosti vlastní opravy a decentralizovaná architektura. Alternativy DWH k BQ jsou např. Amazon Redshift a Microsoft Azure SQL.

Data v BQ jsou organizována do datových sad (podobných databázi) složených z tabulek, pohledů a dalších entit, jako jsou modely strojového učení. Práva na přístup, úpravy, mazání apod. lze nastavit pro celou datovou sadu nebo pro jednotlivé tabulky, které jsou jeho součástí.

Platforma Google Cloud se používá ke správě uživatelských účtů a uživatelé musí mít aktivní účet Google, aby mohli pracovat s BQ. Všechny přístupy jsou spravovány a kontrolovány správci Daktela.

Více informací naleznete na oficiálním Stránka Google Cloud.

Kvóty a limity

Google omezuje maximální zatížení systému nastavením limitů a kvót pro dané časové období (např. počet dotazů, velikost přenesených dat atd.) BQ je určen pro velké projekty s obrovským množstvím dat a z pohledu velkých dat, dokonce i ty největší a nejsložitější ústředny Daktela jsou malou a jednoduchou datovou sadou.

Zjistěte více o kvótách a omezeních na Oficiální stránka Google.

Datové studio Google

Google Data Studio (DS) je nástroj pro vizualizaci a vykazování dat podobný Microsoft Power BI nebo Tableau. Jedná se o webovou aplikaci s uživatelsky přívětivým rozhraním, kde můžete vytvářet zprávy přidáváním tabulek a grafů a doplňovat je textovými a vizuálními prvky.

Data Studio lze použít pro:

Vytváření a úpravy jednotlivých sestav
Správa přehledů, ke kterým má uživatel přístup
Prohlížení přehledů
Vytváření, úpravy a správa zdrojů dat
Správa přístupu k těmto přehledům a zdrojům dat

Každá zpráva se skládá z:

Zdroj dat
Obsah
Nastavení přístupu

Více sestav může používat stejný zdroj dat a sestava může používat několik různých zdrojů dat.

Přístupová práva jsou udělována v prostředí Google zvlášť pro každou službu:

Přístupy a práva BigQuery lze nastavit pro každý:

Projekt (interní přístupy Daktela)

Přístupy a práva Data Studio lze nastavit pro každou z nich:

Sdílený zdroj dat

V BQ i DS uživatel vidí pouze entity, ke kterým má přístupová práva. Nemají žádný způsob, jak zjistit entity jiných uživatelů (datové sady, tabulky, zdroje dat, zprávy), dokud se k nim nepokusí získat přístup prostřednictvím adresy URL.

DataStudio — zdroje dat

Termín Zdroj dat souhrnně označuje:

Nastavení připojení ke zdroji dat
Transformace a formátování přijatých dat
Frekvence synchronizace dat
Přístupová práva

Všechny tyto položky tvoří entitu Google DS, se kterou může uživatel pracovat. Entita není zdrojem dat, ale spíše datovým modelem nebo schématem. Můžete jej také považovat za konektor ke zdroji dat, obvykle DWH.

Google Data studio může použít připojení ke zdroji dat pro připojení k různým druhům DWH, od nativních Google (Google BQ, Google Tabulky, Google Analytics, Google Ads, Google Surveys, Google Cloud atd.) až po běžně používané (Microsoft SQL Server, MySQL, PostgreSQL, soubory CSV atd.) až po konektory třetích stran. Úplný seznam konektorů je k dispozici na Google webová stránka.

Připojením zdroje dat je vytvořena nová entita. Definuje:

Připojení k BigQuery nebo datovému původu
Dotazovaná tabulka nebo specifikace SQL
Formátování kót
Agregované metriky
Parametry — obvykle časové období pro data
Access — kteří uživatelé mohou upravit zdroj dat a/nebo upravit jeho definici
Frekvence synchronizace dat („čerstvost dat“) — obvykle 1 hodina, v rozmezí od 1 minuty do 12 hodin
Sdílení zdrojů dat — omezeno na aktuální přehled nebo povolené sdílení ve více přehledech

Existují i jiné způsoby, jak zúžit data v sestavě, než přímo ve zdroji dat. Můžete také použít „ovládací prvky“ a „skryté filtry“, které jsou popsány níže. Je také možné propojit jednotlivé zdroje dat („míchání dat“), což poskytuje komplexní agregaci dat, které by jinak bylo obtížné dosáhnout pro uživatele bez dobrých znalostí SQL.

Každý požadavek na data ze sestavy je přeložen do dotazu SQL. Jeho výsledek je dočasně uložen (uložen do mezipaměti) po dobu nastavenou v „čerstvosti dat“, což přináší téměř okamžitou dobu odezvy a nízké náklady na dotaz.

Vlastník sestavy se automaticky stává vlastníkem zdroje dat vytvořeného v sestavě. Je možné přidat sdílené zdroje dat z vlastních přehledů do jiných přehledů, které vlastníte. Chcete-li používat a upravovat zdroje dat vlastněné jinými uživateli, musíte požádat vlastníka o povolení a ten jej musí udělit.

Pokud odeberete vložený zdroj dat ze sestavy, bude odstraněn. Pokud odeberete sdílený zdroj dat ze sestavy, nebude odstraněn.

DataStudio — zprávy

Po nastavení zdroje dat můžete vytvořit sestavu přidáním grafů, ve kterých můžete vybrat dimenzi a/nebo metriky ze zdroje dat. Aby bylo rozložení co nejjasnější, můžete přidat více stránek sestavy a přidat další prvky, jako je text a obrázky.

Pole

Pole je datový sloupec. Existují 2 různé typy: rozměry a metriky. Kóty obsahují kategorie nebo entity, které chcete měřit. Metriky popisují dimenze pomocí čísla.

Kromě polí automaticky načtených ze zdroje dat můžete vytvořit vlastní pole pomocí:

Kombinace kót pro vytvoření nové kóty
Kombinace metrik mezi sebou nebo s dimenzí pro vytvoření nové metriky

Rozměry

Dimenze je kategorie informací nebo dat, nebo přesněji datové pole. Např. při měření návštěvnosti webových stránek mohou být některé dimenze Prohlížeč, webová stránka, jazyk apod. Pokud používáte databázový nebo tabulkový zdroj dat, kóta představuje sloupec tabulky.

V DS můžete změnit název, datový typ (text, číslo, datum atd.) a popis každé dimenze.

Metriky

Metrika je agregovaný výpočet nebo operace aplikovaná na datovou sadu, např. počet záznamů, součet, maximum, minimum, průměr atd. Je analogická agregační funkci v dotazu SQL.

Ve svých grafech a tabulkách můžete kombinovat dimenze a metriky.

Grafy

K dispozici jsou následující:

Tabulky (pravidelné a kontingenční)
Grafy
Scorecards — prvky s jednou metrikou

Filtry

Filtrování v DS je interpretováno na pozadí jako úprava zdroje dat SQL. V důsledku toho obdržíte stejná data, ať už použijete filtr při vstupu dat do DS (definice dotazu SQL) nebo na úrovni prvku sestavy (skrytý filtr grafu nebo tabulky), nebo pokud uživatel prohlížení sestavy použije filtr (uživatelský filtr = ovládací prvek). Filtry budou vždy přeloženy do SQL dotazů v BQ.

Správným použitím filtrů však můžete dosáhnout rychlejších časů načítání. Doporučuje se definovat konkrétní dotaz SQL pro celý zdroj dat a přijímat pouze relevantní data, spíše než požadovat celou tabulku a filtrovat na úrovni sestavy. To také šetří čas při načítání a správě dostupných komponent během procesu úpravy sestavy.

Ostatní prvky

Další prvky, které můžete přidat do přehledů:

Odkazy
Obrázky
Externí obsah — vložená URL
Parametry (časové období, e-mailová adresa návštěvníka, vlastní parametry)

Vzhledem k tomu, že zprávy jsou na konkrétní adrese URL, je možné vkládat zprávy do vašich online dokumentů, webových stránek atd.

DataStudio — přístupy

Existují dva různé typy přístupů:

Pohled
Upravit

Uživatelé s přístupem k zobrazení nemohou provádět žádné změny v rozvržení nebo nastavení sestavy. Mohou pouze komunikovat se zprávou a obvykle ji exportovat do PDF, vytisknout nebo vytvořit kopii (kterou pak mohou upravit, tj. také zjistit, jak byla vytvořena).

Uživatelé s přístupem k úpravám mohou upravovat obsah sestavy a měnit jeho nastavení. Vlastník sestavy může spravovat další vlastnosti přístupu, například zabránit ostatním uživatelům v přidávání dalších uživatelů.

Přístup můžete také povolit pomocí odkazu. Tím by se výše uvedené změnilo na:

Sdílení odkazů vypnuto — přístup budou mít pouze určený uživatel
Sdílení odkazů zapnuto — zadaní uživatelé mají přístup, plus:
- 2.1. Kdokoli ve skupině s odkazem může zobrazit (např. pouze uživatelé ve vaší společnosti)
- 2.2. Kdokoli ve skupině s odkazem může upravovat
- 2.3. Každý, kdo má odkaz, může zobrazit
- 2.4. Kdokoli s odkazem může upravovat
- 2.5. Kdokoli na internetu může najít zprávu a zobrazit ji (i bez odkazu)
- 2.6. Kdokoli na internetu může sestavu najít a upravit (i bez odkazu)

Pokud se chcete vyhnout nutnosti nastavovat různé úrovně přístupu k přehledům, můžete nastavit hodnotu 2.3 nebo 2.5, ale nedoporučujeme to, pokud vaše přehledy obsahují citlivé informace. Není možné zobrazit konkrétní přehledy návštěvnosti - Google Analytics zobrazí pouze anonymizované informace.

Přístup ke zdrojovým datům je popsán výše.

Pro přístup k aktuální a interaktivní verzi přehledu musí uživatel znát buď:

Jeho URL, nebo
Přesný název zprávy a její majitel. Volitelně může sestava PDF obsahovat odkaz na online nebo vloženou verzi sestavy.

Pokud uživatel zná adresu URL zprávy a má přístup k přehledu, prohlížeč ji zobrazí. Pokud nemají přístup, otevře se dialogové okno, které je informuje, že musí požádat vlastníka o přístup. Uživatel si může vybrat, jaký typ přístupu chce požadovat. Vlastník obdrží oznámení a jakmile udělí přístup, uživatel bude moci zprávu otevřít. Pokud uživatel nezná adresu URL sestavy, musí kontaktovat vlastníka sestavy jiným způsobem. Vlastník pak musí zprávu ručně najít a udělit uživateli přístup k ní.

Zprávy ve formátu PDF mohou být chráněny heslem, ale mohou být sdíleny jako jakýkoli jiný typ souboru. Aby se zabránilo neoprávněnému sdílení, může vlastník sestavy zabránit ostatním uživatelům v exportu sestavy do PDF. Tím se také vypne Tisk a kopírování.

Nakonec můžete také použít distribuované sdílení sestav pomocí pravidelně odesílaných automaticky generovaných e-mailů, které obsahují:

odkaz na aktuální verzi zprávy
náhled zprávy (obvykle prvních pár stránek)
příloha s kopií zprávy ve formátu PDF s údaji ze dne odeslání zprávy

Koncoví příjemci mohou e-mail předat ostatním. Pokud uživatelé nemají přístup k přehledu, budou moci po otevření adresy URL zprávy požádat o přístup. Stále budou moci otevřít zprávu PDF.

Tato metoda však může být užitečná, pokud potřebujete distribuovat sestavu lidem mimo vaši organizaci.

‍