2.3.2022

Priprava poročil z Google BigQuery in Google Data Studio

Google BigQuery a Reporty v Google Data Studio

Kot ste se že seznanili v prejšnji objavi na blogu, družba Daktela ponuja najrazličnejša orodja za poročanje. Če poenostavimo, sta na voljo 2 sklopa orodij za poročanje in analitiko:

  1. Statistična in analitična orodja, ki so na voljo v spletni aplikaciji Daktela
  2. Rešitev Google

Čeprav je spletna aplikacija Daktela kompleksna in vsebuje pripravljena izpopolnjena analitična orodja, se je v določenih primerih dobro odločiti za zunanjo storitev. Zunanjo storitev izberite, predvsem če:

  • Upravljate z veliko količino podatkov
  • Uporabljate več platform PBX
  • Potrebujete združene preglednice
  • Želite napredno filtriranje podatkov poročila
  • Vas skrbijo obremenitve platform PBX
  • Potrebujete hitrejši čas nalaganja

Sodobna in superzmogljiva rešitev Google je v teh primerih idealna izbira. V spodnjem prispevku povzemamo nekatere njene funkcije.

Na splošno je rešitev kombinacija funkcij shranjevanja podatkov (Google BigQuery), orodja za poročanje (Google Data Studio), povezanih storitev (Google Cloud Platform – varnost, upravljanje, vzdrževanje, spremljanje) in tokov podatkov (Daktela), ki sestavljajo pričakovano izgubo (ETL), in portfelj poslovnih informacij.

Očitna prednost rešitve je njena dostopnost prek spletnega brskalnika. Druga namenska programska oprema ni potrebna; vse je na voljo na osebnem računalniku prek računa Google z ustreznimi pravicami. Delovanje sistema je odvisno samo od hitrosti vaše internetne povezave.

Daktela – samodejna sinhronizacija

Na strežniku bigquery.daktela.com so nameščena redna opravila, ki prenašajo podatke iz platform PBX in jih v rednih intervalih nalagajo v programsko opremo BigQuery (BQ). Ti tako imenovani zagonski skripti so napisani v programskem jeziku Java.

Intervala sinhronizacije sta 120 minut in 24 ur. Podatki se naložijo vsaki dve uri, na koncu vsakega dne ob polnoči pa se naloži naslednji konsolidiran paket za zagotavljanje integritete podatkov. Na izbranih platformah PBX je mogoče 2-urni interval skrajšati na 1-urnega.

V posameznih primerih se lahko v programski opremi BQ ustvarijo na videz podvojeni vnosi. Zagonski skript išče podvojitve, njegovi rezultati se spremljajo in obvestila pošiljajo v namensko programsko opremo. Podvojitve so samodejno odstranjene po izvedbi dnevne sinhronizacije. To pomeni, da ohranite posodobljene poročane podatke brez dodatnega dela.

Ker se vsi zagonski skripti za vse projekte, povezane z BQ, izvajajo na strežniku bigquery.daktela.com, je njihov zagon razporejen ob različnih časih, da se med sabo ne prekrivajo, s tem pa je omogočena učinkovita uporaba sistemskih virov. To prav tako prispeva k sorazmerno kratkem času obdelave. Postopek sinhronizacije (urno ali dnevno nalaganje paketa za vse primere projekta) traja od nekaj minut do nekaj deset minut – običajno med 10 in 30 minut, izjemoma tudi od 60 do 90 minut. Pri izvajanju razhroščevanja lahko sinhronizacijo zaženete tudi ročno.

Vse skripte ustvarijo dnevnik besedilnih datotek.

Dostop do strežnika bigquery.daktela.com je zaščiten s ključem SSH. Strežnik, kot tudi dostop uporabnikov, v celoti upravljajo IT-skrbniki družbe Daktela.

Google BigQuery

BigQuery je popolnoma upravljano, brezstrežniško podatkovno skladišče (DWH), ki omogoča nadgradljivo analizo izredno velikih količin podatkov (na ravni petabajtov: 1 PB ≈ 1024 TB ≈ 1 milijon GB). Gre za platformo kot storitev, ki podpira poizvedbe s specifikacijo ANSI SQL.

Google prav tako zagotavlja povezano funkcionalnost, kot so strojno učenje, geolokacijska orodja, analitična in statistična orodja in upravljanje uporabniškega dostopa in pravic.

Arhitekturo BigQuery povsem upravlja Google, s tem pa uporabnikom ni treba skrbeti za nadgradljivost, razporeditev računalniške zmogljivosti, varnostno kopiranje, vzdrževanje itd. Rešitev je edinstvena, saj vam njena zasnova omogoča, da prejmete rezultate zahtev iz več terabajtov podatkov v nekaj sekundah, iz več petabajtov pa v nekaj minutah.

Tako lahko naložite svoja poročila in interaktivno filtrirate in razvrstite svoje podatke v realnem času.

BigQuery ni samo podatkovna zbirka – gre za nepovezan spletni analitični sistem za obdelavo podatkov, ki je optimiziran za branje in analiziranje. Prav tako je mogoče vnašati podatke in BQ povezati z zunanjimi viri podatkov.

Njegove glavne lastnosti so nadgradljivost, zanesljivost, razpoložljivost, nizki obratovalni stroški, sposobnost samopopravljanja in decentralizirana arhitektura. Drugi možnosti podatkovnega skladišča sta npr. Amazon Redshift in Microsoft Azure SQL.

Podatki so v sistemu BQ organizirani v podatkovne sklope (podobne podatkovnim zbirkam), ki jih sestavljajo preglednice, ogledi in druge entitete, kot so modeli za strojno učenje. Pravice do dostopa, urejanja, brisanja itd. je mogoče nastaviti za celoten podatkovni sklop ali za posamezne preglednice znotraj njega.

Platforma Google Cloud se uporablja za upravljanje uporabniških računov, uporabniki pa morajo imeti aktivni račun Google, če želijo delati z BQ. Vse dostope upravljajo in preverjajo skrbniki sistema Daktela.

Več informacij je na voljo na uradni strani Google Cloud.

Kvote in omejitve

Google omejuje največjo obremenitev sistema z nastavitvijo mejnih vrednosti in kvot za določeno časovno obdobje (npr. število poizvedb, velikost prenesenih podatkov itd.). BQ je zasnovan za velike projekte z ogromnimi količinami podatkov in iz vidika masovnih podatkov so celo največje in najkompleksnejše platforme Daktela PBX majhen in enostaven podatkovni sklop.

Več o kvotah in omejitvah si preberite na uradni strani Google.

Google Data Studio

Google Data Studio (DS) je orodje za vizualizacijo in poročanje podatkov, podobno kot Microsoft Power BI ali Tableau. Ta spletna aplikacija je uporabniku prijazen vmesnik, kjer lahko ustvarite poročila z dodajanjem preglednic in grafov in jih dopolnite z besedilom ali vizualnimi elementi.

Data Studio se lahko uporablja za:

  • Ustvarjanje in urejanje posameznih poročil
  • Upravljanje poročil, do katerih dostopa uporabnik
  • Ogled poročil
  • Ustvarjanje, urejanje in upravljanje virov podatkov
  • Upravljanje dostopa do teh poročil in virov podatkov

Vsako poročilo sestavljajo:

  • Vir podatkov
  • Vsebina
  • Nastavitve dostopa

Več poročil lahko uporablja isti vir podatkov in poročilo lahko uporablja več različnih virov podatkov.

Pravice do dostopa so podeljene v okolju Google, in sicer ločeno za vsako storitev:

  • Dostope in pravice za BigQuery je mogoče nastaviti za vsak:
    • Projekt (notranji dostopi Daktela)
    • Podatkovni sklop
    • Posamezno preglednico in ogled (izbirno)
  • Dostope in pravice za Data Studio je mogoče nastaviti za vsak:
    • Vir podatkov v skupni rabi
    • Lastni vir podatkov (nastavljeno samodejno)
    • Lastno poročilo (nastavljeno samodejno)
    • Poročilo v skupni rabi
    • Poročilo PDF – omogočite lahko zaščito z geslom

Tako pri BQ kot pri DS uporabnik vidi samo entitete, do katerih ima pravico do dostopa. Uporabnik ne more na noben način izvedeti entitet drugih uporabnikov (podatkovnih sklopov, preglednic, virov podatkov, poročil), dokler poskuša do njih dostopati preko URL-ja.

DataStudio – Viri podatkov

Izraz vir podatkov se nanaša na:

  • Vzpostavitev povezave vira podatkov
  • Preoblikovanje in oblikovanje zapisa prejetih podatkov
  • Pogostost sinhronizacije podatkov
  • Pravice do dostopa

Vse to skupaj tvori entiteto Google DS, s katero lahko uporabnik dela. Entiteta ni vir podatkov, temveč model ali shema podatkov. Nekakšen priključek do vira podatkov, običajno skladišča DWH.

Google Data Studio lahko povezavo do vira podatkov uporabi, da poveže različna podatkovna skladišča DWH, vse od Googlovih (Google BQ, Google Sheets, Google Analytics, Google Ads, Google Surveys, Google Cloud itd.), tistih v splošni uporabi (Microsoft SQL Server, MySQL, PostgreSQL, CSV files itd.) do priključkov tretjih oseb. Celoten seznam priključkov je na voljo na spletnem mestu Google.

Ko priključite vir podatkov, se ustvari nova entiteta. Ta opredeljuje:

  • Povezavo na BigQuery ali izvor podatkov
  • Preglednico poizvedbe ali specifikacijo SQL
  • Obliko zapisa dimenzij
  • Združene metrične podatke
  • Parametre – običajno časovno obdobje za podatke
  • Dostop – kateri uporabniki lahko urejajo vir podatkov in/ali njegovo opredelitev
  • Pogostost sinhronizacije podatkov (»osveževanje podatkov«) – običajno 1 ura, razpon od 1 minute do 12 ur
  • Vir podatkov v skupni rabi – omejeno na aktualno poročilo ali omogočena souporaba več poročil

Poleg možnosti določanja podatkov neposredno v viru so na voljo tudi drugi načini za natančno določitev podatkov v poročilu. Uporabite lahko tudi »krmilne tipke« ali »skrite filtre«, ki so opisani v nadaljevanju. Prav tako je mogoče povezati posamezne vire podatkov (»data blending«), kar omogoča zbiranje kompleksnih podatkov, kar bi sicer uporabniki brez dobrega znanja o SQL težko storili.

Vsaka zahteva za podatke iz poročila se prenese v poizvedbo SQL. Rezultat se začasno shrani (preslika v predpomnilnik) za čas, ki je nastavljen v možnosti »osveževanje podatkov«, s tem pa so zagotovljeni skoraj takojšnji odzivni časi in nizki stroški obdelave posamezne poizvedbe.

Lastnik poročila samodejno postane lastnik vira podatkov, ki se ustvari v poročilu. Vire podatkov v skupni rabi je mogoče dodati svojim poročilom ali drugim poročilom, ki jih imate v lasti. Za uporabo in urejanje virov podatkov, ki so last drugih uporabnikov, morate pridobiti dovoljenje zadevnega lastnika.

Če iz poročila odstranite vdelan vir podatkov, se ta izbriše. Če iz poročila odstranite vir podatkov v skupni rabi, se ta ne izbriše.

DataStudio – poročila

Ko ste nastavili vir podatkov, lahko ustvarite poročilo tako, da dodate grafe, pri čemer lahko izberete mere in/ali metriko iz vira podatkov. Da bi bila postavitev kar najbolj pregledna, lahko dodate več strani poročila in druge elemente, kot so besedilo in slike.

Polja

Polje je stolpec s podatki. Obstajata dve različni vrsti: Mere in metrika. Mere vsebujejo kategorije ali entitete, ki jih želite izmeriti. Metrika opisuje mere s številko.

Poleg polj, ki se samodejno naložijo iz vira podatkov, lahko ustvarite lastno polje, in sicer na način, da:

  • Kombinirate mere, da ustvarite novo mero
  • Kombinirate metrike med seboj ali z mero, da ustvarite novo metriko

Mere

Mera je kategorija informacije ali podatka, oziroma natančneje podatkovnega niza. Na primer, pri merjenju prometa spletnega mesta so lahko nekatere mere brskalnik, spletna stran, jezik itd.

V DataStudio lahko spremenite naslov, vrsto podatkov (besedilo, številka, datum itd.) in opis posamezne mere.

Če uporabljate vir podatkov na osnovi podatkovne zbirke ali preglednice, mera predstavlja stolpec v tabeli.

Metrika

Metrika je skupni izračun ali operacija, ki se jo uporabi na podatkovnem sklopu, npr. število vnosov, vsota, največja vrednost, najmanjša vrednost, povprečje itd. (podobno kot združevalna funkcija v poizvedbi SQL).

V grafih in preglednicah lahko kombinirate mere in metriko.

Grafi

Na voljo so naslednje vrste:

  • Preglednice (običajne ali vrtilne)
  • Diagrami
  • Sistem kazalnikov – elementi z eno metriko

Filtri

Filtriranje v DataStudio se obdeluje v ozadju kot urejanje vira podatkov SQL. Tako boste prejeli enake podatke, ne glede na to ali uporabite filter, ko podatki vstopijo v DataStudio (opredelitev poizvedbe SQL) ali na ravni elementa poročila (skriti filter grafa ali preglednice), ali če oseba, ki si ogleduje poročilo, uporabi filter (filter uporabnika = kontrolni element). Filtri se vedno pretvorijo v poizvedbe SQL v BQ.

Vseeno pa lahko z ustrezno uporabo filtrov dosežete hitrejši čas nalaganja. Priporočamo, da opredelite določeno poizvedbo SQL za celoten vir podatkov in prejmete samo pomembne podatke, ne pa da zahtevate celotno preglednico in filtriranje na ravni poročila. To prav tako prihrani čas pri nalaganju in upravljanju razpoložljivih komponent v procesu urejanja poročila.

Drugi elementi

V poročila lahko dodate druge elemente:

  • Povezave
  • Slike
  • Zunanje vsebine – vgrajeni URL
  • Parametre (časovno obdobje, elektronski naslov obiskovalca, lastni parametri)

Ker se poročila nahajajo na določenem URL-ju, je mogoče poročila vgraditi v spletne dokumente, spletne strani itd.

DataStudio – dostopi

Obstajata dve vrsti dostopa:

  1. Ogled
  2. Urejanje

Uporabniki z dostopom z ogledom ne morejo spreminjati postavitve in nastavitev poročila. Lahko samo vzpostavijo interakcijo s poročilom in ga izvozijo v obliko PDF, natisnejo ali ustvarijo kopijo (ki jo lahko nato urejajo, tj. ugotovijo, kako je bilo ustvarjena).

Uporabniki z dostopom z urejanjem lahko urejajo vsebino poročila in spreminjajo njegove nastavitve. Lastnik poročila lahko upravlja druge lastnosti dostopa, kot je preprečevanje drugim uporabnikom, da dodajo več uporabnikov.

Prav tako lahko omogočite dostop s povezavo. Tako se zgoraj navedeno spremeni v:

  1. Izklop souporabe povezave – dostop imajo samo določeni uporabniki
  2. Vklop souporabe povezave – dostop imajo določeni uporabniki in:
  • 2.1. Vsakdo v skupini s povezavo ima omogočen dostop (npr. samo uporabniki v vašem podjetju)
  • 2.2. Vsakdo v skupini s povezavo lahko izvede urejanje
  • 2.3. Vsakdo s povezavo ima omogočen ogled
  • 2.4. Vsakdo s povezavo lahko izvede urejanje
  • 2.5. Vsakdo na internetu lahko najde poročilo in si ga ogleda (tudi brez povezave)
  • 2.6. Vsakdo na internetu lahko najde poročilo in ga ureja (tudi brez povezave)

Če se želite ogniti nastavljanju različnih stopenj dostopa do svojih poročil, lahko to nastavite na 2.3. ali 2.5., vendar tega ne priporočamo, če poročila vsebujejo občutljive informacije. Posebnega poročila o prometu ni mogoče videti – Google Analytics vam prikaže samo anonimizirane informacije.

Dostop do vira podatkov je opisan zgoraj.

Za dostop do najnovejše in interaktivne različice poročila mora uporabnik poznati:

  1. Njegov URL, ali
  2. Točen naslov poročila in njegovega lastnika. Poročilo PDF lahko vsebuje povezavo do spletne ali vdelane različice poročila.

Če uporabnik pozna URL poročila in ima do poročila dostop, ga brskalnik prikaže. V nasprotnem primeru se odpre pogovorno okno, ki uporabnika obvesti, da za dostop potrebuje dovoljenje lastnika. Uporabnik lahko izbere vrsto dostopa, ki ga želi zahtevati. Lastnik prejme obvestilo in če odobri dostop, lahko uporabnik poročilo odpre. Če uporabnik ne pozna URL-ja poročila, se mora na lastnika poročila obrniti na drug način. Lastnik mora nato ročno poiskati poročilo in uporabniku dovoliti dostop.

Poročila v obliki PDF so lahko zaščitena z geslom, vendar jih je mogoče dati v skupno rabo kot druge vrste datotek. Da bi preprečili nepooblaščeno skupno rabo, lahko lastnik poročila prepreči drugim uporabnikom, da izvozijo poročilo v obliko PDF: pri tem je onemogočena tudi možnost tiskanja in kopiranja.

Prav tako lahko uporabite poročilo za razdeljeno skupno rabo tako, da občasno pošljete samodejno ustvarjena elektronska sporočila, ki vključujejo:

  • Povezavo do posodobljene različice poročila
  • Predogled poročila (običajno prvih nekaj strani)
  • Prilogo s kopijo poročila v obliki PDF s podatki z dne, ko je poročilo poslano

Končni prejemniki lahko posredujejo e-pošto drugim. Če kateri koli uporabnik nima dostopa do poročila, ko odpre URL poročila, lahko zahteva dostop. Še vedno bo lahko odprl poročilo v obliki PDF.

Ta način je lahko uporaben, če morate posredovati poročilo osebam zunaj svoje organizacije.