Poročila Google BigQuery in Google Data Studio

September 2, 2024

Kot že veste iz naših Prejšnja objava v blogu, Daktela ponuja široko paleto orodij za poročanje. Če želite stvari poenostaviti, si lahko predstavljate, da ima Daktela dve veji orodij za poročanje in analitiko:

  1. Statistika in analitika, ki so na voljo v spletni aplikaciji Daktela
  2. Googlova rešitev

Medtem ko je Daktela zapletena spletna aplikacija in vsebuje robustna analitična orodja, je v nekaterih primerih morda koristno, da se odločite za zunanjo storitev. Morda boste želeli razmisliti o uporabi enega, še posebej, če:

  • Imejte velike količine podatkov
  • Uporabite več PBX-jev
  • Potrebno je združiti tabele
  • Želite napredno filtriranje podatkov poročila
  • Zaskrbljeni so zaradi obremenitev PBX
  • Zahtevajte hitrejši čas nalaganja

Sodobna in izjemno zmogljiva Googlova rešitev je idealen kandidat za te namene. Na kratko si ga bomo ogledali v tem članku.

Na splošno je rešitev kombinacija shranjevanja podatkov (Google BigQuery), orodja za poročanje (Google Data Studio), partnerskih storitev (Google Cloud Platform — varnost, upravljanje, vzdrževanje, spremljanje) in tokov podatkov (Daktela), ki sestavljajo portfelj ETL in BI.

Jasna prednost je, da je rešitev dostopna s spletnim brskalnikom. Namenska programska oprema ni potrebna; vse je na voljo iz katerega koli računalnika z Googlovim računom z zadostnimi pravicami. Delovanje sistema je odvisno samo od hitrosti vaše internetne povezave.

Daktela — samodejna sinhronizacija

Obstajajo redne naloge, ki so postavljene na bigquery.daktela.com ki preoblikujejo podatke iz PBX in jih naložijo na BigQuery (BQ) v rednih intervalih. Ti tako imenovani skripti za zagon so napisani v Javi.

Interval sinhronizacije je 120 minut in 24 ur. Podatki se občasno naložijo vsaki 2 uri, ob koncu vsakega dne ob polnoči pa se naloži še ena konsolidacijska serija, da se zagotovi celovitost podatkov. Na izbranih PBX-jih je možno 2-urni interval skrajšati na 1 uro.

V posameznih primerih se lahko v BQ ustvarijo navidezno podvojeni vnosi. Skript za zagon išče dvojnike, njegov izhod se spremlja in obvestila se pošljejo programski opremi za spremljanje. Dvojniki se samodejno odstranijo med dnevno sinhronizacijo. To pomeni, da vam ni treba storiti ničesar dodatnega, da bi bili podatki poročanja posodobljeni.

Ker se skripti zagona vseh projektov, povezanih z BQ, izvajajo na bigquery.daktela.com strežnik, načrtovano je, da delujejo ob različnih časih, tako da ne tekmujejo drug proti drugemu in tako se sistemski viri učinkovito uporabljajo. To prispeva tudi k razmeroma kratkemu času obdelave. Korak sinhronizacije (nalaganje urne ali dnevne serije za vse primere projekta) je vprašanje minut do deset minut — običajno 10-30 minut, v skrajnih primerih do 60-90 minut. Pri odpravljanju napak lahko sinhronizacijo zaženete tudi ročno.

Vsi skripti oddajajo dnevnik besedilnih datotek.

Dostop do bigquery.daktela.com strežnik je zavarovan s ključem SSH. Strežnik v celoti upravljajo IT skrbniki družbe Daktela, ki upravljajo tudi dostop uporabnikov.

Google BigQuery

BigQuery je popolnoma upravljano podatkovno skladišče brez strežnika (DWH), ki omogoča razširljivo analizo na izjemno velikih količinah podatkov (v vrstnem redu petabajtov: 1PB ≈ 1024 TB ≈ 1 milijon GB). To je platforma kot storitev, ki podpira poizvedbe z ANSI SQL.

Google ponuja tudi partnerske funkcije, kot so strojno učenje, orodja za geolokacijo, orodja za analitiko in statistiko ter dostop uporabnikov in upravljanje pravic.

Arhitekturo BigQuery v celoti upravlja Google, kar pomeni, da uporabnikom ni treba skrbeti za stvari, kot so razširljivost, porazdelitev računalniške energije, varnostno kopiranje, vzdrževanje itd. Rešitev je edinstvena, saj njena zasnova omogoča prejemanje rezultatov zahtev več kot terabajtov podatkov v sekundah in petabajtov v minutah.

To vam omogoča nalaganje poročil ter interaktivno filtriranje in razvrščanje podatkov v realnem času.

BigQuery ni zgolj baza podatkov — je nerelacijski sistem zbirk podatkov za spletno analitično obdelavo, optimiziran za branje in analizo. Prav tako je mogoče vstaviti podatke in povezati BQ z zunanjimi viri podatkov.

Njegove ključne lastnosti so razširljivost, zanesljivost, razpoložljivost, nizki obratovalni stroški, možnosti samopopravljanja in decentralizirana arhitektura. DWH alternative BQ so npr. Amazon Redshift in Microsoft Azure SQL.

Podatki v BQ so organizirani v nabore podatkov (podobno zbirki podatkov), sestavljene iz tabel, pogledov in drugih entitet, kot so modeli strojnega učenja. Pravice do dostopa, urejanja, brisanja itd. lahko nastavite za celoten nabor podatkov ali za posamezne tabele, ki so del njega.

Platforma Google Cloud se uporablja za upravljanje uporabniških računov, uporabniki pa morajo imeti aktivni Google račun za delo z BQ. Vse dostope upravljajo in preverjajo skrbniki družbe Daktela.

Več informacij najdete na uradniku Stran Google Cloud.

Kvote in omejitve

Google omejuje največjo obremenitev sistema tako, da določi omejitve in kvote za določeno časovno obdobje (npr. število poizvedb, velikost prenesenih podatkov itd.) BQ je narejen za velike projekte z ogromno količino podatkov in z vidika velikih podatkov so tudi največje in najbolj zapletene centralne centrale Daktela majhen in preprost nabor podatkov.

Izvedite več o kvotah in omejitvah uradna Google stran.

Google podatkovni studio

Google Data Studio (DS) je orodje za vizualizacijo podatkov in poročanje, podobno Microsoft Power BI ali Tableau. Gre za spletno aplikacijo z uporabniku prijaznim vmesnikom, kjer lahko ustvarjate poročila z dodajanjem tabel in grafov ter jih dopolnjujete z besedilnimi in vizualnimi elementi.

Data Studio se lahko uporablja za:

  • Ustvarjanje in urejanje posameznih poročil
  • Upravljanje poročil, do katerih ima uporabnik dostop
  • Ogled poročil
  • Ustvarjanje, urejanje in upravljanje virov podatkov
  • Upravljanje dostopa do teh poročil in virov podatkov

Vsako poročilo sestavljajo:

  • Vir podatkov
  • Vsebina
  • Nastavitve dostopa

Več poročil lahko uporablja isti vir podatkov, poročilo pa lahko uporablja več različnih virov podatkov.

Pravice dostopa so dodeljene v Googlovem okolju posebej za vsako storitev:

BigQuery dostop in pravice lahko nastavite za vsakega:

  • Projekt (notranji dostopi Daktela)

Dostopi in pravice do programa Data Studio lahko nastavite za vsakega:

  • Vir podatkov v skupni rabi

V BQ in DS uporabnik vidi samo subjekte, do katerih ima pravice dostopa. Ne morejo izvedeti o entitetah drugih uporabnikov (nabori podatkov, tabele, viri podatkov, poročila), dokler ne poskušajo dostopati do njih prek URL-ja.

DataStudio — viri podatkov

Izraz Vir podatkov se skupaj nanaša na:

  • Nastavitev povezave vira podatkov
  • Preoblikovanje in oblikovanje prejetih podatkov
  • Pogostost sinhronizacije podatkov
  • Pravice dostopa

Vsi ti elementi sestavljajo entiteto Google DS, s katero lahko uporabnik sodeluje. Podjetje ni vir podatkov, temveč podatkovni model ali shema. Lahko si ga predstavljate tudi kot priključek na vir podatkov, običajno DWH.

Google Data studio lahko s povezavo z virom podatkov uporabi za povezavo z različnimi vrstami DWH, od Googlovih izvornih (Google BQ, Google Sheets, Google Analytics, Google Ads, Google Surveys, Google Cloud itd.) do pogosto uporabljenih (Microsoft SQL Server, MySQL, PostgreSQL, CSV datoteke itd.) do priključkov tretjih oseb. Celoten seznam priključkov je na voljo na Google Spletna stran.

S povezovanjem vira podatkov se ustvari nova entiteta. Opredeljuje:

  • Povezava z BigQuery ali izvorom podatkov
  • Poizvedena tabela ali specifikacija SQL
  • Oblikovanje dimenzij
  • Združene meritve
  • Parametri — običajno časovno obdobje za podatke
  • Dostop — kateri uporabniki lahko urejajo vir podatkov in/ali urejajo njegovo definicijo
  • Pogostost sinhronizacije podatkov (»svežina podatkov«) — običajno 1 ura, od 1 minute do 12 ur
  • Skupna raba virov podatkov — omejena na trenutno poročilo ali dovoljena skupna raba v več poročilih

Obstajajo tudi drugi načini za zoženje podatkov v poročilu, razen neposredno v viru podatkov. Uporabite lahko tudi »kontrolnike« in »skrite filtre«, ki so opisani spodaj. Možna je tudi povezava posameznih virov podatkov (»data blending«), kar zagotavlja kompleksno združevanje podatkov, ki bi ga sicer bilo težko doseči uporabnikom brez dobrega znanja SQL.

Vsaka podatkovna zahteva iz poročila je prevedena v poizvedbo SQL. Njegov rezultat se začasno shrani (predpomni) za toliko časa, ki je nastavljen v »svežini podatkov«, kar zagotavlja skoraj takojšen odzivni čas in nizke stroške na poizvedbo.

Lastnik poročila samodejno postane lastnik vira podatkov, ki je ustvarjen v poročilu. Vire podatkov v skupni rabi iz lastnih poročil lahko dodate v druga poročila, ki jih imate. Če želite uporabljati in urejati vire podatkov, ki so v lasti drugih uporabnikov, morate zahtevati dovoljenje lastnika in ga morajo odobriti.

Če odstranite vdelani vir podatkov iz poročila, bo izbrisan. Če odstranite vir podatkov v skupni rabi iz poročila, ne bo izbrisan.

DataStudio — poročila

Ko nastavite vir podatkov, lahko ustvarite poročilo tako, da dodate grafe, v katerih lahko izberete dimenzijo in/ali meritve iz vira podatkov. Če želite, da je postavitev čim bolj jasna, lahko dodate več strani poročila in dodate druge elemente, kot so besedilo in slike.

Polja

Polje je podatkovni stolpec. Obstajata dve različni vrsti: mere in meritve. Dimenzije vsebujejo kategorije ali entitete, ki jih želite izmeriti. Meritve opisujejo dimenzije s številko.

Poleg polj, ki se samodejno naložijo iz vira podatkov, lahko svoje polje ustvarite tako, da:

  • Združevanje dimenzij za ustvarjanje nove dimenzije
  • Združevanje meritev med seboj ali z dimenzijo za ustvarjanje nove metrike

Dimenzije

Dimenzija je kategorija informacij ali podatkov ali natančneje podatkovni niz. Na primer pri merjenju prometa na spletnem mestu bi lahko bile nekatere dimenzije Brskalnik, Spletna stran, Jezik itd. Če uporabljate vir podatkov, ki temelji na zbirki podatkov ali tabelah, dimenzija predstavlja stolpec tabele.

V DS lahko spremenite naslov, vrsto podatkov (besedilo, številka, datum itd.) in opis vsake dimenzije.

Meritve

Metrika je agregatni izračun ali operacija, ki se uporablja za nabor podatkov, npr. število vnosov, vsoto, maksimum, minimum, povprečje itd. Je analogna agregatni funkciji v poizvedbi SQL.

Dimenzije in meritve lahko združite v grafih in tabelah.

Grafi

Na voljo so naslednje:

  • Tabele (redne in vrtilne)
  • Grafikoni
  • Tablice rezultatov — elementi z eno samo metriko

Filtri

Filtriranje v DS se v ozadju razlaga kot urejanje vira podatkov SQL. Posledično boste prejeli iste podatke, ne glede na to, ali uporabite filter, ko podatki vstopijo v DS (definicija poizvedbe SQL) ali na ravni elementa poročila (skriti filter grafa ali tabele) ali če oseba, ki si ogleduje poročilo, uporabi filter (uporabniški filter = kontrolni element). Filtri bodo vedno prevedeni v poizvedbe SQL v BQ.

Vendar pa lahko dosežete hitrejše čase nalaganja s pravilno uporabo filtrov. Priporočljivo je, da določite določeno poizvedbo SQL za celoten vir podatkov in prejemate samo ustrezne podatke, namesto da zahtevate celotno tabelo in filtrirate na ravni poročila. To prihrani tudi čas pri nalaganju in upravljanju razpoložljivih komponent med postopkom urejanja poročil.

Drugi elementi

Drugi elementi, ki jih lahko dodate v svoja poročila:

  • Povezave
  • Slike
  • Zunanja vsebina — vgrajeni URL
  • Parametri (časovno obdobje, e-poštni naslov obiskovalca, lastni parametri)

Ker so poročila na določenem URL-ju, je mogoče poročila vdelati v svoje spletne dokumente, spletne strani itd.

DataStudio — dostopi

Obstajata dve različni vrsti dostopov:

  1. Poglej
  2. Uredi

Uporabniki z dostopom do pogleda ne morejo spreminjati postavitve ali nastavitev poročila. S poročilom lahko komunicirajo samo in ga običajno izvozijo v PDF, natisnejo ali ustvarijo kopijo (ki jo lahko nato uredijo, tj. tudi ugotovijo, kako je bilo ustvarjeno).

Uporabniki z dostopom do urejanja lahko urejajo vsebino poročila in spreminjajo njegove nastavitve. Lastnik poročila lahko upravlja druge lastnosti dostopa, na primer drugim uporabnikom preprečuje dodajanje več uporabnikov.

Dostop lahko dovolite tudi s povezavo. To bi spremenilo zgoraj navedeno v:

  1. Skupna raba povezav je izklopljena — dostop bodo imeli le določeni uporabniki
  2. Skupna raba povezav — določeni uporabniki imajo dostop, plus:
    • 2.1. Vsakdo v skupini s povezavo si lahko ogleda (npr. samo uporabniki v vašem podjetju)
    • 2.2. Vsakdo v skupini s povezavo lahko ureja
    • 2.3. Vsakdo, ki ima povezavo, si lahko ogleda
    • 2.4. Vsakdo, ki ima povezavo, lahko ureja
    • 2.5. Vsakdo na internetu lahko najde poročilo in si ga ogleda (tudi brez povezave)
    • 2.6. Vsakdo na internetu lahko najde poročilo in ga uredi (tudi brez povezave)

Če se želite izogniti nastavitvi različnih stopenj dostopa do poročil, lahko nastavite na 2.3 ali 2.5, vendar tega ne priporočamo, če vaša poročila vsebujejo občutljive podatke. Posameznega prometa poročila ni mogoče videti — Google Analytics bo prikazal samo anonimizirane podatke.

Dostop do izvornih podatkov je opisan zgoraj.

Za dostop do trenutne in interaktivne različice poročila mora uporabnik vedeti:

  1. njegov URL ali
  2. Natančen naslov poročila in njegov lastnik. Po želji lahko poročilo PDF vsebuje povezavo do spletne ali vgrajene različice poročila.

Če uporabnik pozna URL poročila in ima dostop do poročila, ga bo brskalnik prikazal. Če nimajo dostopa, se odpre pogovorno okno, ki jih obvesti, da morajo za dostop prositi lastnika. Uporabnik lahko izbere vrsto dostopa, ki ga želi zahtevati. Lastnik bo prejel obvestilo in ko bo omogočil dostop, bo uporabnik lahko odprel poročilo. Če uporabnik ne pozna URL-ja poročila, se mora obrniti na lastnika poročila na drug način. Lastnik mora nato ročno poiskati poročilo in uporabniku omogočiti dostop do njega.

Poročila v PDF-ju so lahko zaščitena z geslom, vendar jih je mogoče deliti kot katero koli drugo vrsto datoteke. Če želite preprečiti nepooblaščeno skupno rabo, lahko lastnik poročila drugim uporabnikom prepreči izvoz poročila v PDF. To tudi izklopi tiskanje in kopiranje.

Nazadnje lahko uporabite tudi skupno rabo poročil z uporabo občasno poslanih samodejno ustvarjenih e-poštnih sporočil, ki vsebujejo:

  • povezava do najnovejše različice poročila
  • predogled poročila (običajno prvih nekaj strani)
  • priloga s kopijo PDF poročila s podatki od dneva, ko je bilo poročilo poslano

Končni prejemniki lahko e-pošto posredujejo drugim. Če kateri koli uporabnik nima dostopa do poročila, bo ob odprtju URL poročila lahko zahteval dostop. Še vedno bodo lahko odpreli poročilo PDF.

Ta metoda pa je lahko uporabna, če morate poročilo razdeliti osebam zunaj organizacije.

Latest articles