Jak již víte z našeho předchozího příspěvku na blogu, Daktela nabízí širokou škálu nástrojů pro podávání zpráv. Abychom to zjednodušili, můžete si představit, že Daktela má 2 pobočky nástrojů pro podávání zpráv a analýzy:
Zatímco Daktela je komplexní webová aplikace a obsahuje robustní analytické nástroje po vybalení z krabice, v některých případech může být užitečné zvolit externí službu. Možná budete chtít přemýšlet o použití jednoho, zejména pokud:
Moderní a super výkonné řešení Google je pro tyto účely ideálním kandidátem. Rychle se na to podíváme v tomto článku.
Obecně je řešením kombinace datového úložiště (Google BigQuery), reportingového nástroje (Google Data Studio), přidružených služeb (Google Cloud Platform — zabezpečení, správa, údržba, monitoring) a datových toků (Daktela), které tvoří portfolio ETL a BI.
Jasnou výhodou je, že řešení je přístupné pomocí webového prohlížeče. Není potřeba žádný vyhrazený software; vše je k dispozici z jakéhokoli počítače pomocí účtu Google s dostatečnými právy. Provozovatelnost systému závisí pouze na rychlosti vašeho připojení k internetu.
Jsou nastaveny pravidelné úkoly bigquery.daktela.com které transformují data z ústředny a načtou je do BigQuery (BQ) v pravidelných intervalech. Tyto takzvané spouštěcí skripty jsou psány v Javě.
Interval synchronizace je 120 minut a 24 hodin. Data se načítají pravidelně každé 2 hodiny a na konci každého dne o půlnoci se načte další konsolidační dávka, aby byla zajištěna integrita dat. Na vybraných ústřednách je možné zkrátit dvouhodinový interval na 1 hodinu.
V ojedinělých případech mohou být v BQ vytvořeny zdánlivě duplicitní položky. Spusťte skript hledá duplikáty, jeho výstup je sledován a oznámení jsou odesílána do monitorovacího softwaru. Duplikáty jsou automaticky odstraněny během denní synchronizace. To znamená, že nemusíte dělat nic navíc, abyste udrželi data hlášení aktuální.
Protože spouštěcí skripty všech projektů připojených k BQ běží na bigquery.daktela.com server, jsou naplánovány na běh v různých časech, takže si navzájem nekonkurují a systémové prostředky jsou využívány efektivně. To také přispívá k relativně krátké době zpracování. Krok synchronizace (načítání hodinové nebo denní dávky pro všechny instance projektu) je otázkou minut až desítek minut — obvykle 10—30 minut, v extrémních případech až 60-90 minut. Při ladění lze synchronizaci spustit také ručně.
Všechny skripty vydávají protokol textového souboru.
Přístup k bigquery.daktela.com Server je zabezpečen pomocí SSH klíče. Server spravují výhradně správci Daktela IT, kteří také spravují přístup uživatelů.
BigQuery je plně spravovaný datový sklad bez serveru (DWH), který umožňuje škálovatelnou analýzu extrémně velkých objemů dat (v řádu petabajtů: 1PB ≈ 1024 TB ≈ 1 milion GB). Jedná se o platformu jako službu, která podporuje dotazování pomocí ANSI SQL.
Google také poskytuje přidružené funkce, jako je strojové učení, nástroje pro geolokaci, analytické a statistické nástroje a správu přístupu uživatelů a práv.
Architektura BigQuery je zcela spravována společností Google, což znamená, že se uživatelé nemusí starat o věci, jako je škálovatelnost, distribuce výpočetního výkonu, zálohování, údržba atd. Řešení je jedinečné, protože jeho design umožňuje přijímat výsledky požadavků přes terabajty dat během několika sekund a petabajty během několika minut.
To vám umožní načíst zprávy a interaktivně filtrovat a třídit data v reálném čase.
BigQuery není jen databáze - je to nerelační online analytický databázový systém optimalizovaný pro čtení a analýzu. Je také možné vložit data a připojit BQ k externím zdrojům dat.
Jeho klíčovými vlastnostmi jsou škálovatelnost, spolehlivost, dostupnost, nízké provozní náklady, možnosti vlastní opravy a decentralizovaná architektura. Alternativy DWH k BQ jsou např. Amazon Redshift a Microsoft Azure SQL.
Data v BQ jsou organizována do datových sad (podobných databázi) složených z tabulek, pohledů a dalších entit, jako jsou modely strojového učení. Práva na přístup, úpravy, mazání apod. lze nastavit pro celou datovou sadu nebo pro jednotlivé tabulky, které jsou jeho součástí.
Platforma Google Cloud se používá ke správě uživatelských účtů a uživatelé musí mít aktivní účet Google, aby mohli pracovat s BQ. Všechny přístupy jsou spravovány a kontrolovány správci Daktela.
Více informací naleznete na oficiálním Stránka Google Cloud.
Google omezuje maximální zatížení systému nastavením limitů a kvót pro dané časové období (např. počet dotazů, velikost přenesených dat atd.) BQ je určen pro velké projekty s obrovským množstvím dat a z pohledu velkých dat, dokonce i ty největší a nejsložitější ústředny Daktela jsou malou a jednoduchou datovou sadou.
Zjistěte více o kvótách a omezeních na Oficiální stránka Google.
Google Data Studio (DS) je nástroj pro vizualizaci a vykazování dat podobný Microsoft Power BI nebo Tableau. Jedná se o webovou aplikaci s uživatelsky přívětivým rozhraním, kde můžete vytvářet zprávy přidáváním tabulek a grafů a doplňovat je textovými a vizuálními prvky.
Data Studio lze použít pro:
Každá zpráva se skládá z:
Více sestav může používat stejný zdroj dat a sestava může používat několik různých zdrojů dat.
Přístupová práva jsou udělována v prostředí Google zvlášť pro každou službu:
Přístupy a práva BigQuery lze nastavit pro každý:
Přístupy a práva Data Studio lze nastavit pro každou z nich:
V BQ i DS uživatel vidí pouze entity, ke kterým má přístupová práva. Nemají žádný způsob, jak zjistit entity jiných uživatelů (datové sady, tabulky, zdroje dat, zprávy), dokud se k nim nepokusí získat přístup prostřednictvím adresy URL.
Termín Zdroj dat souhrnně označuje:
Všechny tyto položky tvoří entitu Google DS, se kterou může uživatel pracovat. Entita není zdrojem dat, ale spíše datovým modelem nebo schématem. Můžete jej také považovat za konektor ke zdroji dat, obvykle DWH.
Google Data studio může použít připojení ke zdroji dat pro připojení k různým druhům DWH, od nativních Google (Google BQ, Google Tabulky, Google Analytics, Google Ads, Google Surveys, Google Cloud atd.) až po běžně používané (Microsoft SQL Server, MySQL, PostgreSQL, soubory CSV atd.) až po konektory třetích stran. Úplný seznam konektorů je k dispozici na Google webová stránka.
Připojením zdroje dat je vytvořena nová entita. Definuje:
Existují i jiné způsoby, jak zúžit data v sestavě, než přímo ve zdroji dat. Můžete také použít „ovládací prvky“ a „skryté filtry“, které jsou popsány níže. Je také možné propojit jednotlivé zdroje dat („míchání dat“), což poskytuje komplexní agregaci dat, které by jinak bylo obtížné dosáhnout pro uživatele bez dobrých znalostí SQL.
Každý požadavek na data ze sestavy je přeložen do dotazu SQL. Jeho výsledek je dočasně uložen (uložen do mezipaměti) po dobu nastavenou v „čerstvosti dat“, což přináší téměř okamžitou dobu odezvy a nízké náklady na dotaz.
Vlastník sestavy se automaticky stává vlastníkem zdroje dat vytvořeného v sestavě. Je možné přidat sdílené zdroje dat z vlastních přehledů do jiných přehledů, které vlastníte. Chcete-li používat a upravovat zdroje dat vlastněné jinými uživateli, musíte požádat vlastníka o povolení a ten jej musí udělit.
Pokud odeberete vložený zdroj dat ze sestavy, bude odstraněn. Pokud odeberete sdílený zdroj dat ze sestavy, nebude odstraněn.
Po nastavení zdroje dat můžete vytvořit sestavu přidáním grafů, ve kterých můžete vybrat dimenzi a/nebo metriky ze zdroje dat. Aby bylo rozložení co nejjasnější, můžete přidat více stránek sestavy a přidat další prvky, jako je text a obrázky.
Pole je datový sloupec. Existují 2 různé typy: rozměry a metriky. Kóty obsahují kategorie nebo entity, které chcete měřit. Metriky popisují dimenze pomocí čísla.
Kromě polí automaticky načtených ze zdroje dat můžete vytvořit vlastní pole pomocí:
Dimenze je kategorie informací nebo dat, nebo přesněji datové pole. Např. při měření návštěvnosti webových stránek mohou být některé dimenze Prohlížeč, webová stránka, jazyk apod. Pokud používáte databázový nebo tabulkový zdroj dat, kóta představuje sloupec tabulky.
V DS můžete změnit název, datový typ (text, číslo, datum atd.) a popis každé dimenze.
Metrika je agregovaný výpočet nebo operace aplikovaná na datovou sadu, např. počet záznamů, součet, maximum, minimum, průměr atd. Je analogická agregační funkci v dotazu SQL.
Ve svých grafech a tabulkách můžete kombinovat dimenze a metriky.
K dispozici jsou následující:
Filtrování v DS je interpretováno na pozadí jako úprava zdroje dat SQL. V důsledku toho obdržíte stejná data, ať už použijete filtr při vstupu dat do DS (definice dotazu SQL) nebo na úrovni prvku sestavy (skrytý filtr grafu nebo tabulky), nebo pokud uživatel prohlížení sestavy použije filtr (uživatelský filtr = ovládací prvek). Filtry budou vždy přeloženy do SQL dotazů v BQ.
Správným použitím filtrů však můžete dosáhnout rychlejších časů načítání. Doporučuje se definovat konkrétní dotaz SQL pro celý zdroj dat a přijímat pouze relevantní data, spíše než požadovat celou tabulku a filtrovat na úrovni sestavy. To také šetří čas při načítání a správě dostupných komponent během procesu úpravy sestavy.
Další prvky, které můžete přidat do přehledů:
Vzhledem k tomu, že zprávy jsou na konkrétní adrese URL, je možné vkládat zprávy do vašich online dokumentů, webových stránek atd.
Existují dva různé typy přístupů:
Uživatelé s přístupem k zobrazení nemohou provádět žádné změny v rozvržení nebo nastavení sestavy. Mohou pouze komunikovat se zprávou a obvykle ji exportovat do PDF, vytisknout nebo vytvořit kopii (kterou pak mohou upravit, tj. také zjistit, jak byla vytvořena).
Uživatelé s přístupem k úpravám mohou upravovat obsah sestavy a měnit jeho nastavení. Vlastník sestavy může spravovat další vlastnosti přístupu, například zabránit ostatním uživatelům v přidávání dalších uživatelů.
Přístup můžete také povolit pomocí odkazu. Tím by se výše uvedené změnilo na:
Pokud se chcete vyhnout nutnosti nastavovat různé úrovně přístupu k přehledům, můžete nastavit hodnotu 2.3 nebo 2.5, ale nedoporučujeme to, pokud vaše přehledy obsahují citlivé informace. Není možné zobrazit konkrétní přehledy návštěvnosti - Google Analytics zobrazí pouze anonymizované informace.
Přístup ke zdrojovým datům je popsán výše.
Pro přístup k aktuální a interaktivní verzi přehledu musí uživatel znát buď:
Pokud uživatel zná adresu URL zprávy a má přístup k přehledu, prohlížeč ji zobrazí. Pokud nemají přístup, otevře se dialogové okno, které je informuje, že musí požádat vlastníka o přístup. Uživatel si může vybrat, jaký typ přístupu chce požadovat. Vlastník obdrží oznámení a jakmile udělí přístup, uživatel bude moci zprávu otevřít. Pokud uživatel nezná adresu URL sestavy, musí kontaktovat vlastníka sestavy jiným způsobem. Vlastník pak musí zprávu ručně najít a udělit uživateli přístup k ní.
Zprávy ve formátu PDF mohou být chráněny heslem, ale mohou být sdíleny jako jakýkoli jiný typ souboru. Aby se zabránilo neoprávněnému sdílení, může vlastník sestavy zabránit ostatním uživatelům v exportu sestavy do PDF. Tím se také vypne Tisk a kopírování.
Nakonec můžete také použít distribuované sdílení sestav pomocí pravidelně odesílaných automaticky generovaných e-mailů, které obsahují:
Koncoví příjemci mohou e-mail předat ostatním. Pokud uživatelé nemají přístup k přehledu, budou moci po otevření adresy URL zprávy požádat o přístup. Stále budou moci otevřít zprávu PDF.
Tato metoda však může být užitečná, pokud potřebujete distribuovat sestavu lidem mimo vaši organizaci.