Google BigKueri i Google Data Studio Izveštaji

NTPARK 2024 SVA PRAVA ZADRŽANA

Kao što već znate iz našeg prethodnog posta na blogu, Daktela nudi širok spektar alata za izveštavanje. Da bi stvari bile jednostavne, možete misliti da Daktela ima 2 grane izveštavanja i analitičkih alata:

  1. Statistika i analitika dostupni u veb aplikaciji Daktela
  2. Google rešenje

Iako je Daktela složena veb aplikacija i sadrži robusne analitičke alate iz kutije, u nekim slučajevima može biti korisno odlučiti se za eksternu uslugu. Možda ćete želeti da razmislite o korišćenju jednog posebno ako:

  • Imaju velike količine podataka
  • Koristite nekoliko PBKS-a
  • Potrebno je da se pridružite tabelama
  • Želim napredno filtriranje podataka izveštaja
  • Da li su zabrinuti zbog opterećenja PBKS
  • Zahtevaju brže vreme učitavanja

Moderno i super-moćno Google rešenje je idealan kandidat za ove svrhe. Mi ćemo imati brzi pogled na to u ovom članku.

Generalno, rešenje je kombinacija skladištenja podataka (Google BigQuery), alata za izveštavanje (Google Data Studio), affiliate servisa (Google Cloud Platform – bezbednost, upravljanje, održavanje, praćenje) i tokova podataka (Daktela), čineći ETL i BI portfolio.

Jasna prednost je što je rešenje dostupno pomoću veb pretraživača. Nije potreban namenski softver; sve je dostupno sa bilo kog računara koristeći Google nalog sa dovoljnim pravima. Operativnost sistema zavisi samo od brzine internet konekcije.

Daktela – automatska sinhronizacija

Postoje periodični zadaci postavljeni na bigquery.daktela.com koji transformišu podatke iz PBKS-a i učitavaju ih na BigKueri (BK) u redovnim intervalima. Ove takozvane skripte za pokretanje su napisane u Javi.

Interval sinhronizacije je 120 minuta i 24 sata. Podaci se periodično učitavaju svaka 2 sata i na kraju svakog dana u ponoć, učitava se još jedna konsolidaciona serija kako bi se osigurao integritet podataka. Na odabranim PBKS-ovima moguće je skratiti interval od 2 sata na 1 sat.

U izolovanim slučajevima, naizgled dupli unosi mogu biti kreirani u BK. Skripta za pokretanje traži duplikate, njen izlaz se prati i obaveštenja se šalju softveru za praćenje. Duplikati se automatski uklanjaju tokom dnevne sinhronizacije. To znači da ne morate da radite ništa dodatno da biste ažurirali svoje podatke o izveštavanju.

Pošto se skripte za pokretanje svih projekata povezanih sa BQ-om pokreću na bigquery.daktela.com serveru, one su zakazane da se pokreću u različito vreme, tako da se ne takmiče jedni protiv drugih i tako se sistemski resursi efikasno koriste. Ovo takođe doprinosi relativno kratkom vremenu obrade. Korak sinhronizacije (učitavanje satne ili dnevne serije za sve projektne instance) je pitanje minuta do desetina minuta – obično 10-30 minuta, do 60-90 minuta u ekstremnim slučajevima. Prilikom otklanjanja grešaka, sinhronizacija se takođe može pokrenuti ručno.

Sve skripte izlaz tekstualni fajl dnevnik.

Pristup bigquery.daktela.com serveru je obezbeđen pomoću SSH ključa. Serverom u potpunosti upravljaju Daktela IT administratori koji takođe upravljaju korisničkim pristupom.

Gugl BigKueri

BigKueri je potpuno upravljano skladište podataka bez servera (DVH) koje omogućava skalabilnu analizu izuzetno velikih količina podataka (u redosledu petabajta: 1PB ≈ 1024 TB ≈ 1 milion GB). To je platforma kao usluga koja podržava upite pomoću ANSI SKL-a.

Google takođe pruža affiliate funkcionalnost kao što su mašinsko učenje, alati za geolokaciju, alati za analitiku i statistiku i upravljanje korisničkim pristupom i pravima.

BigKueri arhitekturom u potpunosti upravlja Google, što znači da korisnici ne moraju da brinu o stvarima kao što su skalabilnost, distribucija računarske snage, pravljenje rezervnih kopija, održavanje itd. Rešenje je jedinstveno jer njegov dizajn omogućava da primate rezultate zahteva preko terabajta podataka u sekundi i petabajta za nekoliko minuta.

Ovo vam omogućava da učitate svoje izveštaje i interaktivno filtrirate i sortirate podatke u realnom vremenu.

BigQuery nije samo baza podataka – to je nerelacijski onlajn analitički sistem baze podataka optimizovan za čitanje i analizu. Takođe je moguće ubaciti podatke i povezati BQ sa spoljnim izvorima podataka.

Njegove ključne osobine su skalabilnost, pouzdanost, dostupnost, niski troškovi rada, mogućnosti samopopravke i decentralizovana arhitektura. DWH alternative za BK su npr. Amazon Redshift i Microsoft Azure SKL.

Podaci u BK su organizovani u skupove podataka (slično bazi podataka) koji se sastoje od tabela, prikaza i drugih entiteta kao što su modeli mašinskog učenja. Prava pristupa, uređivanja, brisanja itd. mogu se podesiti za ceo skup podataka ili za pojedinačne tabele koje su deo njega.

Google Cloud platforma se koristi za upravljanje korisničkim nalozima i korisnici moraju imati aktivan Google nalog za rad sa BK. Svim pristupima upravljaju i proverava Daktela administratori.

Više informacija možete pronaći na zvaničnoj stranici Google Cloud.

Kvote i ograničenja

Google ograničava maksimalno opterećenje sistema postavljanjem ograničenja i kvota za određeni vremenski period (npr. broj upita, veličina prenesenih podataka itd.) BK je napravljen za velike projekte sa ogromnim količinama podataka, a iz perspektive velikih podataka, čak i najveći i najsloženiji Daktela PBKS-ovi su mali i jednostavni skup podataka.

Saznajte više o kvotama i ograničenjima na zvaničnoj Google stranici.

Google Data Studio

Google Data Studio (DS) je alat za vizuelizaciju podataka i izveštavanje sličan Microsoft Pover BI ili Tableau. To je veb aplikacija sa korisničkim interfejsom gde možete kreirati izveštaje dodavanjem tabela i grafikona i dopuniti ih tekstualnim i vizuelnim elementima.

Data Studio se može koristiti za:

  • Kreiranje i uređivanje pojedinačnih izveštaja
  • Upravljanje izveštajima kojima korisnik ima pristup
  • Pregled izveštaja
  • Kreiranje, uređivanje i upravljanje izvorima podataka
  • Upravljanje pristupom ovim izveštajima i izvorima podataka

Svaki izveštaj se sastoji od:

  • Izvor podataka
  • Sadržaja
  • Podešavanja pristupa

Višestruki izveštaji mogu koristiti isti izvor podataka, a izveštaj može koristiti nekoliko različitih izvora podataka.

Prava pristupa se dodeljuju u Google okruženju odvojeno za svaku uslugu:

BigKueri pristupi i prava mogu biti podešeni za svaki:

  • Projekat (interni Daktela pristupi)

Data Studio pristupi i prava mogu se podesiti za svaki:

  • Zajednički izvor podataka

I u BQ i DS, korisnik vidi samo entitete kojima ima prava pristupa. Oni nemaju načina da saznaju o entitetima drugih korisnika (skupovi podataka, tabele, izvori podataka, izveštaji) dok ne pokušaju da im pristupe preko URL-a.

DataStudio – izvori podataka

Termin Izvor podataka kolektivno se odnosi na:

  • Uspostavljanje veze sa izvorom podataka
  • Transformacija i formatiranje primljenih podataka
  • Frekvencija sinhronizacije podataka
  • Prava pristupa

Sve ove stavke čine Google DS entitet sa kojim korisnik može da radi. Entitet nije izvor podataka, već model podataka ili šema. Takođe možete razmišljati o tome kao konektor za izvor podataka, obično DVH.

Google Data Studio može da koristi vezu sa izvorom podataka za povezivanje sa različitim vrstama DVH, od Google izvornih (Google BK, Google Sheets, Google Analitika, Google Ads, Google Ankete, Google Cloud itd.) do najčešće korišćenih (Microsoft SKL Server, MiSKL, PostgreSKL, CSV datoteke itd.) do konektora nezavisnih proizvođača. Kompletna lista konektora je dostupna na Google sajtu.

Povezivanjem izvora podataka kreira se novi entitet. On definiše:

  • Povezivanje sa BigKueri ili poreklom podataka
  • Upitna tabela ili SKL specifikacija
  • Formatiranje dimenzija
  • Agregirane metrike
  • Parametri – obično vremenski period za podatke
  • Access – koji korisnici mogu da uređuju izvor podataka i/ili izmene njegovu definiciju
  • Frekvencija sinhronizacije podataka ("svežina podataka") – obično 1 sat, u rasponu od 1 minuta do 12 sati
  • Deljenje izvora podataka – ograničeno na trenutni izveštaj ili dozvoljeno deljenje u više izveštaja

Postoje i drugi načini za sužavanje podataka u izveštaju, osim direktno u izvoru podataka. Takođe možete koristiti "kontrole" i "skrivene filtere" koji su opisani u nastavku. Takođe je moguće povezati pojedinačne izvore podataka ("mešanje podataka"), obezbeđujući složenu agregaciju podataka koja bi inače bila teško postići za korisnike bez dobrog SKL znanja.

Svaki zahtev za podatke iz izveštaja se prevodi u SKL upit. Njegov rezultat se privremeno čuva (kešira) za količinu vremena postavljenog u "svežini podataka", pružajući gotovo trenutna vremena odgovora i niske troškove po upitu.

Vlasnik izveštaja automatski postaje vlasnik izvora podataka koji je kreiran u izveštaju. Moguće je dodati zajedničke izvore podataka iz sopstvenih izveštaja u druge izveštaje koje posedujete. Da biste koristili i uređivali izvore podataka u vlasništvu drugih korisnika, potrebno je da zatražite dozvolu vlasnika i oni moraju da je odobri.

Ako uklonite ugrađeni izvor podataka iz izveštaja, on će biti obrisan. Ako uklonite deljeni izvor podataka iz izveštaja, on neće biti obrisan.

DataStudio – izveštaji

Nakon što podesite izvor podataka, možete kreirati izveštaj dodavanjem grafikona gde možete da izaberete dimenziju i / ili metriku iz izvora podataka. Da bi izgled bio što jasniji, možete dodati više stranica izveštaja i dodati druge elemente kao što su tekst i slike.

Polja

Polje je kolona podataka. Postoje 2 različita tipa: dimenzije i metrike. Dimenzije sadrže kategorije ili entitete koje želite da izmerite. Metrike opisuju dimenzije pomoću broja.

Pored polja koja se automatski učitavaju iz izvora podataka, možete kreirati sopstveno polje tako što ćete:

  • Kombinovanje dimenzija za stvaranje nove dimenzije
  • Kombinovanje metrika jedni sa drugima ili sa dimenzijom za kreiranje nove metrike

Dimenzije

Dimenzija je kategorija informacija ili podataka, ili tačnije niz podataka. Npr. prilikom merenja saobraćaja na veb lokaciji, neke dimenzije mogu biti pretraživač, veb stranica, jezik itd. Ako koristite izvor podataka zasnovan na bazi podataka ili tabeli, dimenzija predstavlja kolonu vaše tabele.

U DS-u možete da promenite naslov, tip podataka (tekst, broj, datum itd.) i opis svake dimenzije.

Metrika

Metrika je agregatna kalkulacija ili operacija koja se primenjuje na skup podataka, npr. broj unosa, suma, maksimum, minimum, prosek itd. To je analogno agregatnoj funkciji u SKL upitu.

Možete kombinovati dimenzije i metrike u grafikonima i tabelama.

Grafikoni

Na raspolaganju su sledeći:

  • Tabele (redovne i pivot)
  • Grafikoni
  • Scorecards – elementi sa jednom metrikom

Filtere

Filtriranje u DS-u se tumači u pozadini kao uređivanje SKL izvora podataka. Shodno tome, dobićete iste podatke bez obzira da li primenjujete filter kada podaci uđu DS (definicija SKL upita) ili na nivou elementa izveštaja (skriveni filter grafikona ili tabele), ili ako osoba koja gleda izveštaj primenjuje filter (korisnički filter = kontrolni element). Filteri će uvek biti prevedeni u SKL upite u BK.

Međutim, možete postići brže vreme učitavanja pravilnom primenom filtera. Preporučuje se definisanje određenog SKL upita za ceo izvor podataka i primanje samo relevantnih podataka, a ne traženje cele tabele i filtriranje na nivou izveštaja. Ovo takođe štedi vreme prilikom učitavanja i upravljanja dostupnim komponentama tokom procesa uređivanja izveštaja.

Ostali elementi

Ostali elementi koje možete dodati u svoje izveštaje:

  • Veze
  • Slike
  • Spoljni sadržaj – ugrađeni URL
  • Parametri (vremenski period, e-mail adresa posetioca, sopstveni parametri)

Pošto su izveštaji na određenom URL-u, moguće je ugraditi izveštaje u vaše online dokumente, veb stranice itd.

DataStudio – pristupi

Postoje dve različite vrste pristupa:

  1. Prikaz
  2. Uređivanje

Korisnici sa pristupom za prikaz ne mogu da izvrše nikakve promene u izgledu ili podešavanjima izveštaja. Oni mogu samo da komuniciraju sa izveštajem i obično ga izvoze u PDF, štampaju ili kreiraju kopiju (koju onda mogu da uređuju, tj. Takođe saznaju kako je kreiran).

Korisnici sa pristupom za uređivanje mogu uređivati sadržaj izveštaja i menjati njegove postavke. Vlasnik izveštaja može da upravlja drugim svojstvima pristupa, kao što je sprečavanje drugih korisnika da dodaju više korisnika.

Takođe možete dozvoliti pristup pomoću veze. Ovo bi promenilo gore navedeno u:

  1. Deljenje linkova isključeno – samo navedeni korisnici će imati pristup
  2. Deljenje linkova na – navedeni korisnici imaju pristup, plus:
    • 2.1. Svako u grupi sa vezom može da vidi (npr. samo korisnici u vašoj kompaniji)
    • 2.2. Svako u grupi sa linkom može da uređuje
    • 2.3. Svako sa linkom može da vidi
    • 2.4. Svako sa linkom može da menja
    • 2.5. Svako na internetu može da pronađe izveštaj i da ga pogleda (čak i bez veze)
    • 2.6. Svako na internetu može da pronađe izveštaj i izmenite ga (čak i bez veze)

Ako želite da izbegnete postavljanje različitih nivoa pristupa izveštajima, možete ga podesiti na 2.3 ili 2.5, ali to ne preporučujemo ako vaši izveštaji sadrže osetljive informacije. Nije moguće pregledati određeni saobraćaj izveštaja – Google analitika će prikazati samo anonimne informacije.

Pristup izvornim podacima je opisan gore.

Da bi pristupio trenutnoj i interaktivnoj verziji izveštaja, korisnik mora da zna:

  1. Njegov URL, ili
  2. Tačan naslov izveštaja i njegov vlasnik. Opciono, PDF izveštaj može da sadrži vezu ka onlajn ili ugrađenoj verziji izveštaja.

Ako korisnik zna URL izveštaja i ima pristup izveštaju, pretraživač će ga prikazati. Ako nemaju pristup, otvoriće se dijaloški bok, obaveštavajući ih da moraju da pitaju vlasnika za pristup. Korisnik može da izabere koju vrstu pristupa želi da zatraži. Vlasnik će dobiti obaveštenje i kada odobri pristup, korisnik će moći da otvori izveštaj. Ako korisnik ne zna URL izveštaja, potrebno je da kontaktira vlasnika izveštaja na drugi način. Vlasnik tada treba ručno da pronađe izveštaj i odobri korisniku pristup njemu.

Izveštaji u PDF-u mogu biti zaštićeni lozinkom, ali se mogu deliti kao i bilo koji drugi tip datoteke. Da bi se sprečilo neovlašćeno deljenje, vlasnik izveštaja može da spreči druge korisnike da izvoze izveštaj u PDF. Ovo takođe isključuje štampanje i kopiranje.

Konačno, takođe možete koristiti distribuirano deljenje izveštaja koristeći periodično poslate automatski generisane e-poruke koje sadrže:

  • link na ažuriranu verziju izveštaja
  • pregled izveštaja (obično prvih nekoliko stranica)
  • prilog sa PDF kopijom izveštaja sa podacima od dana slanja izveštaja

Krajnji primaoci mogu proslediti e-poštu drugima. Ako neki korisnici nemaju pristup izveštaju, kada otvore URL izveštaja, moći će da zatraže pristup. Oni će i dalje moći da otvore PDF izveštaj.

Ovaj metod, međutim, može biti koristan ako je potrebno da distribuirate izveštaj ljudima izvan vaše organizacije.

Najnoviji članci