Jak již víte z našich předchozí příspěvek na blogu, Daktela nabízí širokou škálu reportovacích nástrojů. Pro zjednodušení si můžete Daktela představit jako 2 větve nástrojů pro reportování a analytické nástroje:
Přestože Daktela je komplexní webová aplikace a obsahuje robustní analytické nástroje, v některých případech může být užitečné zvolit externí službu. O jejím použití můžete uvažovat zejména v případě, že:
Moderní a velmi výkonné řešení Google je pro tyto účely ideálním kandidátem. V tomto článku se na něj krátce podíváme.
Obecně je řešení kombinací datového úložiště (Google BigQuery), reportovacího nástroje (Google Data Studio), přidružených služeb (Google Cloud Platform - zabezpečení, správa, údržba, monitorování) a datových toků (Daktela), které tvoří portfolio ETL a BI.
Jasnou výhodou je, že řešení je přístupné pomocí webového prohlížeče. Není potřeba žádný specializovaný software, vše je dostupné z jakéhokoli počítače pomocí účtu Google s dostatečnými právy. Provozuschopnost systému závisí pouze na rychlosti internetového připojení.
Na webu bigquery.daktela.com jsou nastaveny pravidelné úlohy, které v pravidelných intervalech transformují data z ústředen a načítají je do BigQuery (BQ ). Tyto tzv. spouštěcí skripty jsou napsány v jazyce Java.
Interval synchronizace je 120 minut a 24 hodin. Data se načítají pravidelně každé 2 hodiny a na konci každého dne o půlnoci se načte další konsolidační dávka, aby byla zajištěna integrita dat. U vybraných ústředen je možné zkrátit dvouhodinový interval na 1 hodinu.
V ojedinělých případech mohou být v systému BQ vytvořeny zdánlivě duplicitní záznamy. Spuštěný skript vyhledává duplicity, jeho výstup je monitorován a oznámení jsou zasílána monitorovacímu softwaru. Duplikáty jsou automaticky odstraněny během denní synchronizace. To znamená, že nemusíte dělat nic navíc, abyste udrželi data hlášení aktuální.
Protože spouštěcí skripty všech projektů připojených k systému BQ jsou spuštěny na serveru bigquery.daktela.com , je jejich spouštění naplánováno na různou dobu, aby si vzájemně nekonkurovaly a systémové prostředky byly efektivně využity. To také přispívá k relativně krátké době zpracování. Synchronizační krok (načtení hodinové nebo denní dávky pro všechny instance projektu) je otázkou minut až desítek minut - typicky 10-30 minut, v extrémních případech až 60-90 minut. Při ladění lze synchronizaci spustit i ručně.
Výstupem všech skriptů je protokol textového souboru.
Přístup k serveru bigquery.daktela.com je zabezpečen pomocí klíče SSH. Server spravují výhradně správci IT společnosti Daktela, kteří také spravují přístup uživatelů.
BigQuery je plně spravovaný datový sklad (DWH) bez serveru, který umožňuje škálovatelnou analýzu extrémně velkých objemů dat (v řádu petabajtů: 1PB ≈ 1024 TB ≈ 1 milion GB). Jedná se o platformu jako službu, která podporuje dotazování pomocí jazyka ANSI SQL.
Google také poskytuje přidružené funkce, jako je strojové učení, nástroje pro geolokaci, analytické a statistické nástroje a správa přístupu a práv uživatelů.
Architektura BigQuery je zcela spravována společností Google, což znamená, že uživatelé se nemusí starat o věci, jako je škálovatelnost, distribuce výpočetního výkonu, zálohování, údržba atd. Řešení je jedinečné, protože jeho konstrukce umožňuje získat výsledky požadavků nad terabajty dat během několika sekund a nad petabajty během několika minut.
To vám umožní načítat sestavy a interaktivně filtrovat a třídit data v reálném čase.
BigQuery není jen databáze - je to nerelační online databázový systém pro analytické zpracování optimalizovaný pro čtení a analýzu. Je také možné vkládat data a propojit BQ s externími zdroji dat.
Jeho klíčovými vlastnostmi jsou škálovatelnost, spolehlivost, dostupnost, nízké provozní náklady, možnost samoopravy a decentralizovaná architektura. Alternativami DWH k BQ jsou například Amazon Redshift a Microsoft Azure SQL.
Data v systému BQ jsou uspořádána do datových sad (podobně jako v databázi), které se skládají z tabulek, pohledů a dalších entit, jako jsou modely strojového učení. Práva k přístupu, úpravám, mazání atd. lze nastavit pro celou datovou sadu nebo pro jednotlivé tabulky, které jsou její součástí.
Ke správě uživatelských účtů se používá platforma Google Cloud a uživatelé musí mít aktivní účet Google, aby mohli pracovat se službou BQ. Všechny přístupy spravují a kontrolují správci společnosti Daktela.
Další informace najdete na oficiální Google Cloud.
Společnost Google omezuje maximální zatížení systému nastavením limitů a kvót pro dané časové období (např. počet dotazů, velikost přenesených dat atd.) BQ je vytvořen pro velké projekty s obrovským množstvím dat a z hlediska velkých dat jsou i ty největší a nejsložitější ústředny Daktela malou a jednoduchou datovou sadou.
Další informace o kvótách a limitech najdete na oficiální stránce Google.
Google Data Studio (DS) je nástroj pro vizualizaci dat a vytváření reportů podobný nástrojům Microsoft Power BI nebo Tableau. Jedná se o webovou aplikaci s uživatelsky přívětivým rozhraním, kde můžete vytvářet sestavy přidáváním tabulek a grafů a doplňovat je textovými a vizuálními prvky.
Data Studio lze použít k:
Každá zpráva se skládá z:
Více sestav může používat stejný zdroj dat a jedna sestava může používat několik různých zdrojů dat.
Přístupová práva se v prostředí Google udělují pro každou službu zvlášť:
Pro každý z nich lze nastavit přístupy a práva BigQuery:
Pro každou z nich lze nastavit přístupy a práva ve Studiu dat:
V systému BQ i DS vidí uživatel pouze entity, ke kterým má přístupová práva. O entitách jiných uživatelů (datových sadách, tabulkách, zdrojích dat, sestavách) se nemá jak dozvědět, dokud se k nim nepokusí přistoupit prostřednictvím adresy URL.
Termín Zdroj dat souhrnně označuje:
Všechny tyto položky tvoří entitu Google DS, se kterou může uživatel pracovat. Entita není zdrojem dat, ale spíše datovým modelem nebo schématem. Můžete si ji také představit jako konektor ke zdroji dat, typicky DWH.
Google Data studio se může pomocí připojení ke zdroji dat připojit k různým typům DWH, od nativních typů Google (Google BQ, Google Sheets, Google Analytics, Google Ads, Google Surveys, Google Cloud atd.) přes běžně používané (Microsoft SQL Server, MySQL, PostgreSQL, soubory CSV atd.) až po konektory třetích stran. Úplný seznam konektorů je k dispozici na stránce Google ..
Připojením zdroje dat se vytvoří nová entita. Definuje:
Existují i jiné způsoby zúžení dat v sestavě než přímo ve zdroji dat. Můžete také použít "ovládací prvky" a "skryté filtry", které jsou popsány níže. Je také možné propojit jednotlivé zdroje dat ("míchání dat") a zajistit tak komplexní agregaci dat, která by jinak byla pro uživatele bez dobrých znalostí SQL obtížně dosažitelná.
Každý požadavek na data ze sestavy je převeden na dotaz SQL. Jeho výsledek je dočasně uložen (cachován) po dobu nastavenou v "čerstvosti dat", což přináší téměř okamžitou dobu odezvy a nízké náklady na jeden dotaz.
Vlastník sestavy se automaticky stává vlastníkem zdroje dat, který je v sestavě vytvořen. Sdílené zdroje dat z vlastních sestav je možné přidávat do jiných sestav, které vlastníte. Chcete-li používat a upravovat zdroje dat vlastněné jinými uživateli, musíte požádat o povolení vlastníka a ten vám ho musí udělit.
Pokud ze sestavy odeberete vložený zdroj dat, bude odstraněn. Pokud ze sestavy odstraníte sdílený zdroj dat, nebude odstraněn.
Po nastavení zdroje dat můžete vytvořit sestavu přidáním grafů, do kterých můžete vybrat dimenzi a/nebo metriky ze zdroje dat. Aby bylo rozvržení co nejpřehlednější, můžete přidat více stránek sestavy a přidat další prvky, například text a obrázky.
Pole je sloupec dat. Existují 2 různé typy: dimenze a metriky. Dimenze obsahují kategorie nebo entity, které chcete měřit. Metriky popisují dimenze pomocí čísla.
Kromě polí automaticky načtených ze zdroje dat můžete vytvořit vlastní pole pomocí:
Dimenze je kategorie informací nebo dat, přesněji datové pole. Např. při měření návštěvnosti webových stránek by některé dimenze mohly být Prohlížeč, Webová stránka, Jazyk atd. Pokud používáte databázový nebo tabulkový zdroj dat, dimenze představuje sloupec vaší tabulky.
V systému DS můžete změnit název, typ dat (text, číslo, datum atd.) a popis každé dimenze.
Metrika je souhrnný výpočet nebo operace aplikovaná na soubor dat, např. počet položek, součet, maximum, minimum, průměr atd. Je to obdoba agregační funkce v dotazu SQL.
V grafech a tabulkách můžete kombinovat rozměry a metriky.
K dispozici jsou následující položky:
Filtrování v systému DS je na pozadí interpretováno jako úprava SQL zdroje dat. V důsledku toho obdržíte stejná data, ať už filtr použijete při vstupu dat do DS (definice SQL dotazu) nebo na úrovni prvku sestavy (skrytý filtr grafu nebo tabulky), nebo pokud filtr použije osoba, která sestavu prohlíží (uživatelský filtr = kontrolní prvek). Filtry se v BQ vždy převedou na SQL dotazy.
Správným použitím filtrů však můžete dosáhnout rychlejšího načítání. Doporučujeme definovat konkrétní dotaz SQL pro celý zdroj dat a přijímat pouze relevantní data namísto vyžádání celé tabulky a filtrování na úrovni sestavy. To také šetří čas při načítání a správě dostupných komponent během procesu úprav sestavy.
Další prvky, které můžete do sestav přidat:
Vzhledem k tomu, že sestavy jsou na konkrétní adrese URL, je možné je vložit do online dokumentů, webových stránek atd.
Existují dva různé typy přístupů:
Uživatelé s přístupem Zobrazení nemohou provádět žádné změny v rozvržení nebo nastavení sestavy. Mohou pouze se sestavou pracovat a obvykle ji exportovat do PDF, vytisknout nebo vytvořit kopii (kterou pak mohou upravovat, tj. také zjistit, jak byla vytvořena).
Uživatelé s přístupem Upravit mohou upravovat obsah sestavy a měnit její nastavení. Vlastník sestavy může spravovat další vlastnosti přístupu, například zabránit ostatním uživatelům v přidávání dalších uživatelů.
Přístup můžete povolit také pomocí odkazu. Tím se výše uvedené změní na:
Pokud se chcete vyhnout nastavování různých úrovní přístupu k sestavám, můžete nastavit hodnotu 2.3 nebo 2.5, ale nedoporučujeme to, pokud vaše sestavy obsahují citlivé informace. Není možné zobrazit konkrétní návštěvnost sestav - Google Analytics zobrazí pouze anonymizované informace.
Přístup ke zdrojovým datům je popsán výše.
Pro přístup k aktuální a interaktivní verzi sestavy musí uživatel znát buď:
Pokud uživatel zná adresu URL sestavy a má k ní přístup, prohlížeč ji zobrazí. Pokud přístup nemá, otevře se dialogové okno s informací, že musí požádat vlastníka o přístup. Uživatel může vybrat, o jaký typ přístupu chce požádat. Vlastník obdrží oznámení a po udělení přístupu bude moci uživatel sestavu otevřít. Pokud uživatel nezná adresu URL sestavy, musí vlastníka sestavy kontaktovat jiným způsobem. Vlastník pak musí sestavu ručně vyhledat a udělit uživateli přístup k ní.
Zprávy ve formátu PDF mohou být chráněny heslem, ale lze je sdílet jako jakýkoli jiný typ souboru. Aby se zabránilo neoprávněnému sdílení, může vlastník sestavy zabránit ostatním uživatelům v exportu sestavy do PDF. Tím se také vypne funkce Tisk a kopírování.
Nakonec můžete také využít distribuované sdílení zpráv pomocí pravidelně zasílaných automaticky generovaných e-mailů, které obsahují:
Koncoví příjemci mohou e-mail přeposlat dalším osobám. Pokud někteří uživatelé nemají k sestavě přístup, budou moci po otevření adresy URL sestavy požádat o přístup. Přesto budou moci zprávu ve formátu PDF otevřít.
Tato metoda však může být užitečná, pokud potřebujete zprávu distribuovat lidem mimo vaši organizaci.