Poročila Google BigQuery in Google Data Studio

23. avgust 2024

Kot že veste iz naših prejšnjega prispevka na bloguDaktela ponuja široko paleto orodij za poročanje. Če poenostavim, si lahko podjetje Daktela predstavljate kot podjetje z dvema vejama orodij za poročanje in analitičnih orodij:

  1. Statistika in analitika, ki sta na voljo v spletni aplikaciji Daktela
  2. Googlova rešitev

Čeprav je Daktela zapletena spletna aplikacija in že v osnovi vsebuje zanesljiva analitična orodja, je v nekaterih primerih koristno uporabiti zunanjo storitev. O njeni uporabi boste morda želeli razmisliti zlasti, če:

  • imajo velike količine podatkov.
  • Uporaba več PBX
  • Potrebno se je pridružiti tabelam
  • Želite napredno filtriranje podatkov v poročilu
  • ste zaskrbljeni zaradi obremenitve PBX
  • Zahtevajte hitrejše nalaganje

Sodobna in izjemno zmogljiva rešitev Google je idealna za te namene. V tem članku si jo bomo na hitro ogledali.

Na splošno je rešitev kombinacija shranjevanja podatkov (Google BigQuery), orodja za poročanje (Google Data Studio), povezanih storitev (Google Cloud Platform - varnost, upravljanje, vzdrževanje, spremljanje) in podatkovnih tokov (Daktela), ki sestavljajo portfelj ETL in BI.

Jasna prednost je, da je rešitev dostopna s spletnim brskalnikom. Posebna programska oprema ni potrebna; vse je na voljo iz katerega koli računalnika z uporabo Googlovega računa z zadostnimi pravicami. Delovanje sistema je odvisno le od hitrosti vaše internetne povezave.

Daktela - samodejna sinhronizacija

Na spletnem mestu bigquery.daktela.com so vzpostavljena redna opravila, ki v rednih časovnih presledkih preoblikujejo podatke iz PBX in jih nalagajo v BigQuery (BQ ). Te tako imenovane zagonske skripte so napisane v jeziku Java.

Interval sinhronizacije je 120 minut in 24 ur. Podatki se nalagajo periodično vsaki dve uri, ob koncu vsakega dneva ob polnoči pa se naloži še en konsolidacijski paket, da se zagotovi celovitost podatkov. Pri izbranih PBX je mogoče dvourni interval skrajšati na 1 uro.

V posameznih primerih se lahko v sistemu BQ ustvarijo navidezno podvojeni vnosi. Izvedena skripta išče podvojitve, njen izpis se spremlja, obvestila pa se pošljejo programski opremi za spremljanje. Podvojitve se samodejno odstranijo med dnevno sinhronizacijo. To pomeni, da vam ni treba storiti ničesar dodatnega, da bi bili podatki za poročanje posodobljeni.

Ker se skripte za izvajanje vseh projektov, povezanih z BQ, izvajajo v strežniku bigquery.daktela.com , je njihovo izvajanje načrtovano ob različnih časih, tako da ne tekmujejo med seboj in se sistemski viri uporabljajo učinkovito. To prispeva tudi k razmeroma kratkemu času obdelave. Korak sinhronizacije (nalaganje urne ali dnevne serije za vse primere projekta) je vprašanje minut do deset minut - običajno 10-30 minut, v skrajnih primerih do 60-90 minut. Pri odpravljanju napak lahko sinhronizacijo zaženete tudi ročno.

Vse skripte izpišejo dnevnik v obliki besedilne datoteke.

Dostop do strežnika bigquery.daktela.com je zaščiten s ključem SSH. Strežnik v celoti upravljajo skrbniki IT podjetja Daktela, ki upravljajo tudi dostop uporabnikov.

Google BigQuery

BigQuery je popolnoma upravljano podatkovno skladišče (DWH) brez strežnika, ki omogoča skalabilno analizo izredno velikih količin podatkov (v velikosti petabajtov: 1PB ≈ 1024 TB ≈ 1 milijon GB). Gre za platformo kot storitev, ki podpira poizvedovanje z uporabo ANSI SQL.

Google zagotavlja tudi pridružene funkcije, kot so strojno učenje, orodja za geolokacijo, orodja za analitiko in statistiko ter upravljanje dostopa in pravic uporabnikov.

Arhitekturo BigQuery v celoti upravlja Google, kar pomeni, da uporabnikom ni treba skrbeti za stvari, kot so skalabilnost, porazdelitev računalniške moči, varnostno kopiranje, vzdrževanje itd. Rešitev je edinstvena, saj njena zasnova omogoča prejemanje rezultatov zahtevkov nad terabajti podatkov v nekaj sekundah, nad petabajti pa v nekaj minutah.

Tako lahko nalagate poročila ter interaktivno filtrirate in razvrščate podatke v realnem času.

BigQuery ni le podatkovna zbirka - je nerelacijska spletna analitična podatkovna zbirka, optimizirana za branje in analizo. Prav tako je mogoče vstavljati podatke in BQ povezati z zunanjimi viri podatkov.

Njegove ključne lastnosti so skalabilnost, zanesljivost, razpoložljivost, nizki obratovalni stroški, možnost samopopravil in decentralizirana arhitektura. Alternativi za BQ sta na primer Amazon Redshift in Microsoft Azure SQL.

Podatki v sistemu BQ so organizirani v podatkovne nize (podobno kot v zbirki podatkov), ki jih sestavljajo tabele, pogledi in druge entitete, kot so modeli strojnega učenja. Pravice za dostop, urejanje, brisanje itd. je mogoče določiti za celoten nabor podatkov ali za posamezne tabele, ki so njegov del.

Za upravljanje uporabniških računov se uporablja platforma Google Cloud, uporabniki pa morajo imeti aktiven račun Google, da lahko delajo z družbo BQ. Vse dostope upravljajo in preverjajo administratorji podjetja Daktela.

Več informacij najdete na uradni spletni strani Google Cloud.

Kvote in omejitve

Google omeji največjo obremenitev sistema z določitvijo omejitev in kvot za določeno časovno obdobje (npr. število poizvedb, velikost prenesenih podatkov itd.) BQ je narejen za velike projekte z velikimi količinami podatkov, z vidika velikih podatkov pa so tudi največje in najbolj zapletene telefonske centrale Daktela majhen in preprost nabor podatkov.

Več o kvotah in omejitvah na uradni strani Googla.

Google Data Studio

Google Data Studio (DS) je orodje za vizualizacijo podatkov in poročanje, podobno Microsoftovemu orodju Power BI ali Tableau. Gre za spletno aplikacijo z uporabniku prijaznim vmesnikom, kjer lahko ustvarjate poročila z dodajanjem tabel in grafov ter jih dopolnite z besedilom in vizualnimi elementi.

Data Studio lahko uporabite za:

  • Ustvarjanje in urejanje posameznih poročil
  • Upravljanje poročil, do katerih ima uporabnik dostop
  • Pregledovanje poročil
  • Ustvarjanje, urejanje in upravljanje podatkovnih virov
  • upravljanje dostopa do teh poročil in virov podatkov.

Vsako poročilo je sestavljeno iz:

  • Vir podatkov
  • Vsebina
  • Nastavitve dostopa

Več poročil lahko uporablja isti vir podatkov, eno poročilo pa lahko uporablja več različnih virov podatkov.

Pravice dostopa se v Googlovem okolju dodelijo za vsako storitev posebej:

Za vsakega je mogoče nastaviti dostope in pravice BigQueryja:

  • Projekt (interni dostopi Daktela)

Za vsakega je mogoče nastaviti dostop in pravice v Studiu Data:

  • Skupni vir podatkov

V BQ in DS uporabnik vidi samo entitete, do katerih ima pravice dostopa. Ne more izvedeti za entitete drugih uporabnikov (podatkovne nize, tabele, vire podatkov, poročila), dokler do njih ne poskuša dostopati prek naslova URL.

DataStudio - viri podatkov

Izraz Vir podatkov se skupaj nanaša na:

  • Nastavitev povezave vira podatkov
  • preoblikovanje in oblikovanje prejetih podatkov
  • Frekvenca sinhronizacije podatkov
  • Pravice dostopa

Vsi ti elementi sestavljajo entiteto Google DS, s katero lahko uporabnik dela. Entiteta ni vir podatkov, temveč podatkovni model ali shema. Lahko si jo predstavljate tudi kot povezovalnik z virom podatkov, ki je običajno DWH.

Google Data studio lahko povezavo z virom podatkov uporabi za povezavo z različnimi vrstami DWH, od Googlovih lastnih (Google BQ, Google Sheets, Google Analytics, Google Ads, Google Surveys, Google Cloud itd.) do pogosto uporabljenih (Microsoft SQL Server, MySQL, PostgreSQL, datoteke CSV itd.) in priključkov tretjih oseb. Celoten seznam priključkov je na voljo na spletnem mestu Google na spletnem mestu ..

S povezavo vira podatkov se ustvari nova entiteta. Opredeljuje:

  • Povezava z BigQueryjem ali izvorom podatkov
  • Poizvedovana tabela ali specifikacija SQL
  • Oblikovanje dimenzij
  • Agregirane metrike
  • Parametri - običajno časovno obdobje za podatke
  • Dostop - kateri uporabniki lahko urejajo vir podatkov in/ali urejajo njegovo opredelitev.
  • Pogostost sinhronizacije podatkov ("svežina podatkov") - običajno 1 ura, od 1 minute do 12 ur.
  • souporaba vira podatkov - omejena na trenutno poročilo ali dovoljena souporaba v več poročilih

Podatke v poročilu lahko zožite tudi drugače kot neposredno v viru podatkov. Uporabite lahko tudi "kontrole" in "skrite filtre", ki so opisani v nadaljevanju. Posamezne vire podatkov je mogoče tudi povezati ("mešanje podatkov"), kar omogoča zapleteno združevanje podatkov, ki bi ga uporabniki brez dobrega znanja SQL sicer težko dosegli.

Vsaka zahteva za podatke iz poročila se prevede v poizvedbo SQL. Njen rezultat se začasno shrani (predpomnilnik) za čas, določen v "svežini podatkov", kar zagotavlja skoraj takojšen odzivni čas in nizke stroške na poizvedbo.

Lastnik poročila samodejno postane lastnik vira podatkov, ki je ustvarjen v poročilu. Skupne vire podatkov iz lastnih poročil je mogoče dodati v druga poročila, ki so v vaši lasti. Če želite uporabljati in urejati podatkovne vire, ki so v lasti drugih uporabnikov, morate lastnika zaprositi za dovoljenje, ta pa vam ga mora odobriti.

Če iz poročila odstranite vgrajeni vir podatkov, se izbriše. Če iz poročila odstranite skupni vir podatkov, se ta ne izbriše.

DataStudio - poročila

Ko nastavite vir podatkov, lahko ustvarite poročilo z dodajanjem grafov, v katerih lahko izberete dimenzijo in/ali metrike iz vira podatkov. Da bi bila postavitev čim bolj pregledna, lahko dodate več strani poročila in druge elemente, kot so besedilo in slike.

Polja

Polje je podatkovni stolpec. Obstajata dve različni vrsti: dimenzije in metrike. Dimenzije vsebujejo kategorije ali entitete, ki jih želite meriti. Metrike opisujejo dimenzije s številom.

Poleg polj, ki se samodejno naložijo iz vira podatkov, lahko ustvarite tudi svoja polja:

  • Združevanje dimenzij za ustvarjanje nove dimenzije
  • združevanje metrik med seboj ali z dimenzijo za ustvarjanje nove metrike

Dimenzije

Dimenzija je kategorija informacij ali podatkov, natančneje podatkovno polje. Na primer, pri merjenju prometa na spletni strani so lahko nekatere dimenzije brskalnik, spletna stran, jezik itd. Če uporabljate podatkovni vir, ki temelji na zbirki podatkov ali tabeli, dimenzija predstavlja stolpec vaše tabele.

V DS lahko spremenite naslov, vrsto podatkov (besedilo, številka, datum itd.) in opis vsake dimenzije.

Metrike

Metrika je zbirni izračun ali operacija, ki se uporablja za niz podatkov, npr. število vnosov, vsota, maksimum, minimum, povprečje itd. Je analogna zbirni funkciji v poizvedbi SQL.

V grafikonih in tabelah lahko kombinirate dimenzije in metrike.

Grafi

Na voljo so naslednje možnosti:

  • Tabele (navadne in vrtilne)
  • Diagrami
  • Preglednice - elementi z eno samo metriko

Filtri

Filtriranje v DS se v ozadju interpretira kot urejanje SQL vira podatkov. Zato boste prejeli enake podatke, ne glede na to, ali boste filter uporabili ob vnosu podatkov v DS (opredelitev poizvedbe SQL) ali na ravni elementa poročila (skriti filter grafa ali tabele), ali če bo filter uporabila oseba, ki pregleduje poročilo (uporabniški filter = kontrolni element). Filtri bodo v programu BQ vedno prevedeni v poizvedbe SQL.

Vendar lahko s pravilno uporabo filtrov dosežete hitrejše nalaganje. Priporočljivo je, da določite posebno poizvedbo SQL za celoten vir podatkov in prejmete samo ustrezne podatke, namesto da zahtevate celotno tabelo in filtrirate na ravni poročila. S tem prihranite tudi čas pri nalaganju in upravljanju razpoložljivih komponent med postopkom urejanja poročila.

Drugi elementi

Drugi elementi, ki jih lahko dodate v poročila:

  • Povezave
  • Slike
  • Zunanja vsebina - vdelani URL
  • Parametri (časovno obdobje, e-poštni naslov obiskovalca, lastni parametri)

Ker so poročila na določenem naslovu URL, jih je mogoče vgraditi v spletne dokumente, spletne strani itd.

DataStudio - dostopi

Obstajata dve različni vrsti dostopov:

  1. Oglejte si
  2. Uredi

Uporabniki z dostopom Pogled ne morejo spreminjati postavitve ali nastavitev poročila. Lahko le sodelujejo s poročilom in ga običajno izvozijo v PDF, natisnejo ali ustvarijo kopijo (ki jo lahko nato uredijo, tj. tudi ugotovijo, kako je bila ustvarjena).

Uporabniki z dostopom za urejanje lahko urejajo vsebino poročila in spreminjajo njegove nastavitve. Lastnik poročila lahko upravlja druge lastnosti dostopa, kot je preprečevanje dodajanja novih uporabnikov drugim uporabnikom.

Dostop lahko omogočite tudi s povezavo. To bi spremenilo zgornji stavek v:

  1. Skupna raba povezav izklopljena - dostop imajo samo določeni uporabniki
  2. Skupna raba povezav je vključena - določeni uporabniki imajo dostop, plus:
    • 2.1. Vsakdo v skupini s povezavo si lahko ogleda (npr. samo uporabniki v vašem podjetju).
    • 2.2. Vsakdo v skupini s povezavo lahko ureja
    • 2.3. Vsakdo, ki ima povezavo, si lahko ogleda
    • 2.4. Vsakdo, ki ima povezavo, lahko ureja
    • 2.5. Vsakdo na internetu lahko najde poročilo in si ga ogleda (tudi brez povezave).
    • 2.6. Vsakdo na internetu lahko najde poročilo in ga uredi (tudi brez povezave).

Če se želite izogniti nastavljanju različnih ravni dostopa do poročil, lahko nastavite 2.3 ali 2.5, vendar tega ne priporočamo, če vaša poročila vsebujejo občutljive podatke. Prikaz prometa v posameznih poročilih ni mogoč - Google Analytics bo prikazal le anonimizirane informacije.

Dostop do izvornih podatkov je opisan zgoraj.

Za dostop do trenutne in interaktivne različice poročila mora uporabnik poznati:

  1. njegov URL ali
  2. Natančen naslov poročila in njegovega lastnika. Po želji lahko poročilo PDF vsebuje povezavo do spletne ali vdelane različice poročila.

Če uporabnik pozna naslov URL poročila in ima dostop do poročila, ga bo brskalnik prikazal. Če dostopa nima, se bo odprlo pogovorno okno, ki ga bo obvestilo, da mora za dostop prositi lastnika. Uporabnik lahko izbere, za katero vrsto dostopa želi zaprositi. Lastnik bo prejel obvestilo in ko bo odobril dostop, bo uporabnik lahko odprl poročilo. Če uporabnik ne pozna naslova URL poročila, se mora z lastnikom poročila povezati na drug način. Lastnik mora nato ročno poiskati poročilo in uporabniku odobriti dostop do njega.

Poročila v formatu PDF so lahko zaščitena z geslom, vendar jih lahko delite kot vse druge vrste datotek. Da bi preprečil nepooblaščeno deljenje, lahko lastnik poročila drugim uporabnikom prepreči izvoz poročila v PDF. S tem se izklopita tudi funkcija tiskanja in kopiranja.

Uporabite lahko tudi porazdeljeno souporabo poročil z uporabo redno poslanih samodejno ustvarjenih e-poštnih sporočil, ki vsebujejo:

  • povezavo do posodobljene različice poročila.
  • predogled poročila (običajno prvih nekaj strani).
  • priponka s kopijo poročila v formatu PDF s podatki z dneva, ko je bilo poročilo poslano.

Končni prejemniki lahko e-poštno sporočilo posredujejo drugim. Če kateri koli uporabnik nima dostopa do poročila, bo lahko, ko bo odprl naslov URL poročila, zahteval dostop. Še vedno bodo lahko odprli poročilo PDF.

Ta metoda pa je lahko uporabna, če morate poročilo posredovati osebam zunaj organizacije.

Najnovejši članki