Google BigQuery és Google Data Studio jelentések

augusztus 23, 2024

Mint azt már tudjátok a korábbi blogbejegyzésünkből, a Daktela a jelentési eszközök széles skáláját kínálja. A dolgok leegyszerűsítése érdekében úgy gondolhat a Daktelára, mintha 2 ággal rendelkezne: a Jelentéstételi és az Elemző eszközökkel:

  1. A Daktela webes alkalmazásban elérhető statisztikák és elemzések
  2. Google megoldás

Bár a Daktela egy összetett webes alkalmazás, és alapból robusztus elemzőeszközöket tartalmaz, bizonyos esetekben hasznos lehet egy külső szolgáltatás igénybevétele. Különösen akkor érdemes elgondolkodnia egy ilyen szolgáltatás használatán, ha:

  • Nagy mennyiségű adat áll rendelkezésre
  • Több PBX használata
  • Szükség van a táblázatok összekapcsolására
  • Fejlett jelentésadat-szűrést szeretne
  • Aggódnak a PBX-terhelések miatt
  • Gyorsabb betöltési időt igényelnek

A modern és szupererős Google megoldás ideális jelölt ezekre a célokra. Ebben a cikkben egy gyors pillantást vetünk rá.

Általánosságban a megoldás az adattárolás (Google BigQuery), a jelentéskészítő eszköz (Google Data Studio), a társszolgáltatások (Google Cloud Platform - biztonság, kezelés, karbantartás, felügyelet) és az adatáramlás (Daktela) kombinációja, amely egy ETL és BI portfóliót alkot.

Egyértelmű előnye, hogy a megoldás egy webböngésző segítségével érhető el. Nincs szükség külön szoftverre; minden elérhető bármely PC-ről egy megfelelő jogosultságokkal rendelkező Google-fiók segítségével. A rendszer működőképessége csak az internetkapcsolat sebességétől függ.

Daktela - automatikus szinkronizálás

A bigquery.daktela.com oldalon időszakos feladatok vannak beállítva, amelyek rendszeres időközönként átalakítják az adatokat a PBX-ekből és betöltik a BigQuery (BQ) rendszerbe. Ezek az úgynevezett futtatási szkriptek Java nyelven íródtak.

A szinkronizálási időköz 120 perc és 24 óra. Az adatok betöltése 2 óránként történik, és minden nap végén, éjfélkor egy újabb konszolidációs tétel betöltésére kerül sor az adatok integritásának biztosítása érdekében. A kiválasztott PBX-eknél lehetőség van a 2 órás intervallum 1 órára történő lerövidítésére.

Elszigetelt esetekben előfordulhat, hogy látszólag duplikált bejegyzések jönnek létre a BQ-ban. A futtatószkript keresi a duplikátumokat, a kimenetét figyeli, és értesítéseket küld a felügyeleti szoftvereknek. A duplikációkat a napi szinkronizálás során automatikusan eltávolítja. Ez azt jelenti, hogy semmi extra teendője nincs a jelentési adatok naprakészen tartása érdekében.

Mivel a BQ-hez csatlakozó összes projekt futtatószkriptjei a bigquery.daktela.com szerveren futnak, különböző időpontokra vannak ütemezve, így nem versenyeznek egymással, és a rendszer erőforrásai hatékonyan kerülnek felhasználásra. Ez is hozzájárul a viszonylag rövid feldolgozási időhöz. Egy szinkronizálási lépés (egy óránkénti vagy napi köteg betöltése az összes projektpéldányra) percektől néhány tíz percig tart - jellemzően 10-30 perc, szélsőséges esetben akár 60-90 perc is lehet. Hibakereséskor a szinkronizálás manuálisan is elindítható.

Minden szkript egy szöveges fájl naplóját adja ki.

A bigquery.daktela.com szerverhez való hozzáférés SSH-kulccsal biztosított. A szervert teljes egészében a Daktela IT-adminisztrátorai kezelik, akik a felhasználói hozzáférést is kezelik.

Google BigQuery

A BigQuery egy teljesen menedzselt, szerver nélküli adattárház (DWH), amely lehetővé teszi a skálázható elemzést rendkívül nagy adatmennyiségeken (petabájtos nagyságrendben: 1PB ≈ 1024 TB ≈ 1 millió GB). Ez egy platform mint szolgáltatás, amely támogatja az ANSI SQL használatával történő lekérdezést.

A Google olyan partnerfunkciókat is biztosít, mint a gépi tanulás, a geolokációs eszközök, az analitikai és statisztikai eszközök, valamint a felhasználói hozzáférés és a jogosultságok kezelése.

A BigQuery architektúráját teljes egészében a Google kezeli, ami azt jelenti, hogy a felhasználóknak nem kell aggódniuk olyan dolgok miatt, mint a skálázhatóság, a számítási teljesítmény elosztása, a biztonsági mentés, a karbantartás stb. A megoldás azért egyedülálló, mert felépítése lehetővé teszi, hogy a terabájtnyi adatot tartalmazó lekérdezések eredményeit másodpercek alatt, a petabájtnyi adatot tartalmazó lekérdezésekét pedig percek alatt megkapjuk.

Ez lehetővé teszi a jelentések betöltését, valamint az adatok interaktív szűrését és rendezését valós időben.

A BigQuery nem egyszerűen egy adatbázis - ez egy nem relációs online analitikus feldolgozó adatbázisrendszer, amelyet olvasásra és elemzésre optimalizáltak. Lehetőség van adatok beszúrására és a BQ külső adatforrásokhoz való csatlakoztatására is.

Legfontosabb tulajdonságai a skálázhatóság, a megbízhatóság, a rendelkezésre állás, az alacsony üzemeltetési költségek, az önjavítási lehetőségek és a decentralizált architektúra. A BQ DWH alternatívái például az Amazon Redshift és a Microsoft Azure SQL.

A BQ-ben az adatok táblázatokból, nézetekből és egyéb entitásokból, például gépi tanulási modellekből álló adathalmazokba szerveződnek (hasonlóan egy adatbázishoz). A hozzáférési, szerkesztési, törlési stb. jogok beállíthatók a teljes adathalmazra vagy az annak részét képező egyes táblákra.

A felhasználói fiókok kezelésére a Google Cloud platformot használják, és a felhasználóknak aktív Google-fiókkal kell rendelkezniük ahhoz, hogy a BQ-vel dolgozhassanak. Minden hozzáférést a Daktela rendszergazdái kezelnek és ellenőriznek.

További információkat a hivatalos Google Cloud oldalon.

Kontingensek és korlátozások

A Google korlátozza a rendszer maximális terhelését azáltal, hogy egy adott időszakra korlátokat és kvótákat állít fel (pl. lekérdezések száma, átvitt adatok mérete stb.) A BQ nagy projektekhez készült, hatalmas mennyiségű adatot tartalmaz, és a big data szempontjából még a legnagyobb és legösszetettebb Daktela PBX-ek is kis és egyszerű adathalmaznak számítanak.

Tudjon meg többet a kvótákról és korlátozásokról a hivatalos Google oldal.

Google Data Studio

A Google Data Studio (DS) egy, a Microsoft Power BI vagy a Tableau eszközeihez hasonló adatvizualizációs és jelentéstételi eszköz. Ez egy felhasználóbarát felülettel rendelkező webes alkalmazás, ahol táblázatok és grafikonok hozzáadásával készíthetünk jelentéseket, és kiegészíthetjük azokat szöveges és vizuális elemekkel.

A Data Studio használható:

  • Egyedi jelentések létrehozása és szerkesztése
  • A felhasználó által elérhető jelentések kezelése
  • Jelentések megtekintése
  • Adatforrások létrehozása, szerkesztése és kezelése
  • A jelentésekhez és adatforrásokhoz való hozzáférés kezelése

Minden jelentés a következőkből áll:

  • Egy adatforrás
  • Tartalom
  • Hozzáférési beállítások

Több jelentés is használhatja ugyanazt az adatforrást, és egy jelentés több különböző adatforrást is használhat.

A hozzáférési jogok a Google-környezetben minden egyes szolgáltatáshoz külön-külön kerülnek megadásra:

A BigQuery hozzáférések és jogok mindegyikhez beállíthatók:

  • Projekt (belső Daktela hozzáférések)

A Data Studio hozzáférései és jogai mindegyikhez beállíthatók:

  • Közös adatforrás

Mind a BQ-ben, mind a DS-ben a felhasználó csak azokat az entitásokat látja, amelyekhez hozzáférési joga van. Nincs módja arra, hogy más felhasználók entitásait (adathalmazok, táblák, adatforrások, jelentések) megismerje, amíg meg nem próbálja elérni azokat egy URL-címen keresztül.

DataStudio - adatforrások

Az adatforrás kifejezés együttesen a következőkre utal:

  • Adatforrás kapcsolat beállítása
  • A fogadott adatok átalakítása és formázása
  • Adatszinkronizálási gyakoriság
  • Hozzáférési jogok

Mindezek az elemek alkotják a Google DS entitást, amellyel a felhasználó dolgozhat. Az entitás nem adatforrás, hanem inkább egy adatmodell vagy séma. Úgy is gondolhat rá, mint egy csatlakozóra az adatforráshoz, jellemzően egy DWH-hoz.

A Google adatstúdió az adatforráshoz való kapcsolódást különböző DWH-típusokhoz használhatja, a Google natív (Google BQ, Google Sheets, Google Analytics, Google Ads, Google Surveys, Google Cloud stb.), az általánosan használt (Microsoft SQL Server, MySQL, PostgreSQL, CSV fájlok stb.) és a harmadik féltől származó csatlakozókhoz. A csatlakozók teljes listája elérhető a Google weboldalon.

Egy adatforrás csatlakoztatásával egy új entitás jön létre. Meghatározza:

  • Csatlakozás a BigQuery-hez vagy egy adatforráshoz
  • A lekérdezett táblázat vagy SQL specifikáció
  • Méretformázás
  • Összesített mérőszámok
  • Paraméterek - jellemzően egy időszak az adatokhoz
  • Hozzáférés - mely felhasználók szerkeszthetik az adatforrást és/vagy szerkeszthetik annak definícióját.
  • Az adatok szinkronizálásának gyakorisága ("adatfrissítés") - jellemzően 1 óra, 1 perc és 12 óra között.
  • Adatforrás-megosztás - az aktuális jelentésre korlátozva vagy több jelentésben való megosztás megengedett

A jelentésben szereplő adatok szűkítésének más módjai is vannak, mint közvetlenül az adatforrásban. Használhat "vezérlőelemeket" és "rejtett szűrőket" is, amelyeket az alábbiakban ismertetünk. Lehetőség van az egyes adatforrások összekapcsolására is ("adatkeverés"), ami olyan összetett adatösszesítést biztosít, amelyet egyébként nehéz lenne megvalósítani a jó SQL-ismeretekkel nem rendelkező felhasználók számára.

A jelentés minden adatkérése SQL-lekérdezéssé alakul. Az eredményt ideiglenesen elmenti (gyorsítótárba helyezi) az "adatfrissítésben" meghatározott ideig, ami szinte azonnali válaszidőt és alacsony lekérdezésenkénti költségeket biztosít.

A jelentés tulajdonosa automatikusan a jelentésben létrehozott adatforrás tulajdonosává válik. Lehetőség van arra, hogy a saját jelentéseiből megosztott adatforrásokat adjon hozzá más, a tulajdonában lévő jelentésekhez. Más felhasználók tulajdonában lévő adatforrások használatához és szerkesztéséhez a tulajdonos engedélyét kell kérnie, és a tulajdonosnak meg kell adnia azt.

Ha egy beágyazott adatforrást eltávolít egy jelentésből, az törlődik. Ha megosztott adatforrást távolít el egy jelentésből, az nem törlődik.

DataStudio - jelentések

Az adatforrás beállítása után grafikonok hozzáadásával készíthet jelentést, amelyben az adatforrásból dimenziót és/vagy mérőszámokat választhat ki. Az elrendezés minél áttekinthetőbbé tétele érdekében több jelentésoldalt adhat hozzá, és egyéb elemeket, például szöveget és képeket is hozzáadhat.

Mezők

A mező egy adatoszlop. 2 különböző típus létezik: dimenziók és mérőszámok. A dimenziók olyan kategóriákat vagy entitásokat tartalmaznak, amelyeket mérni szeretne. A metrikák számmal írják le a dimenziókat.

Az adatforrásból automatikusan betöltött mezőkön kívül létrehozhat saját mezőt is:

  • A dimenziók kombinálása új dimenzió létrehozásához
  • Mérőszámok kombinálása egymással vagy egy dimenzióval egy új mérőszám létrehozásához

Méretek

A dimenzió az információk vagy adatok egy kategóriája, pontosabban egy adattömb. Például a weboldal-forgalom mérésekor néhány dimenzió lehet a böngésző, a weboldal, a nyelv stb. Ha adatbázis-alapú vagy táblázat-alapú adatforrást használ, egy dimenzió a táblázat egy oszlopát jelenti.

A DS-ben módosíthatja az egyes dimenziók címét, adattípusát (szöveg, szám, dátum stb.) és leírását.

Mérőszámok

A metrika egy adathalmazra alkalmazott összesített számítás vagy művelet, pl. a bejegyzések száma, összege, maximuma, minimuma, átlaga stb. Ez analóg az SQL-lekérdezésben szereplő összesítő függvényhez.

A grafikonokban és táblázatokban kombinálhat dimenziókat és mérőszámokat.

Grafikonok

A következők állnak rendelkezésre:

  • Táblázatok (normál és pivot)
  • Diagramok
  • Eredménytáblák - elemek egyetlen mérőszámmal

Szűrők

A DS-ben végzett szűrés a háttérben az adatforrás SQL-jének szerkesztéseként értelmeződik. Következésképpen ugyanazokat az adatokat kapja, akár akkor alkalmazza a szűrőt, amikor az adatok a DS-be kerülnek (az SQL-lekérdezés meghatározása), akár a jelentéselem szintjén (egy grafikon vagy táblázat rejtett szűrője), akár a jelentést megtekintő személy alkalmazza a szűrőt (felhasználói szűrő = vezérlőelem). A szűrők mindig SQL-lekérdezésekre lesznek lefordítva a BQ-ben.

A szűrők megfelelő alkalmazásával azonban gyorsabb betöltési időt érhet el. Ajánlatos a teljes adatforrásra egy konkrét SQL-lekérdezést definiálni, és csak a releváns adatokat fogadni, ahelyett, hogy a teljes táblát kérné le, és a jelentés szintjén szűrne. Ez időt takarít meg a jelentésszerkesztés során a rendelkezésre álló összetevők betöltése és kezelése során is.

Egyéb elemek

A jelentésekhez hozzáadható egyéb elemek:

  • Linkek
  • Képek
  • Külső tartalom - beágyazott URL
  • Paraméterek (időszak, látogató e-mail címe, saját paraméterek)

Mivel a jelentések egy adott URL-címen találhatók, a jelentések beágyazhatók online dokumentumaiba, weboldalakba stb.

DataStudio - hozzáférések

A hozzáféréseknek két különböző típusa van:

  1. A megtekintése
  2. Szerkesztés

A Nézet hozzáféréssel rendelkező felhasználók nem módosíthatják a jelentés elrendezését vagy beállításait. Csak interakcióba léphetnek a jelentéssel, és általában PDF-be exportálhatják, kinyomtathatják vagy másolatot készíthetnek róla (amelyet aztán szerkeszthetnek, azaz azt is megtudhatják, hogyan készült).

A Szerkesztési hozzáféréssel rendelkező felhasználók szerkeszthetik a jelentés tartalmát és módosíthatják annak beállításait. A jelentés tulajdonosa egyéb hozzáférési tulajdonságokat is kezelhet, például megakadályozhatja, hogy más felhasználók további felhasználókat adjanak hozzá.

A hozzáférést egy link segítségével is engedélyezheti. Ez a fentieket a következőkre változtatja:

  1. Linkmegosztás kikapcsolva - csak a megadott felhasználók férhetnek hozzá
  2. Linkmegosztás be - a megadott felhasználóknak van hozzáférése, plusz:
    • 2.1. A linkkel rendelkező csoportban bárki megtekintheti (pl. csak a vállalat felhasználói).
    • 2.2. Bárki a csoportban, aki rendelkezik a linkkel, szerkeszthet
    • 2.3. Bárki, aki rendelkezik a linkkel, megtekintheti
    • 2.4. Bárki, aki rendelkezik a linkkel, szerkesztheti
    • 2.5. Az interneten bárki megtalálhatja és megtekintheti a jelentést (akár link nélkül is).
    • 2.6. Az interneten bárki megtalálhatja a jelentést és szerkesztheti (akár a link nélkül is).

Ha el akarja kerülni, hogy különböző hozzáférési szinteket kelljen beállítania a jelentésekhez, beállíthatja a 2.3 vagy 2.5 értéket, de ezt nem javasoljuk, ha a jelentései érzékeny információkat tartalmaznak. Nem lehetséges konkrét jelentésforgalom megtekintése - a Google Analytics csak anonimizált információkat jelenít meg.

A forrásadatokhoz való hozzáférés a fentiekben leírtak szerint történik.

Egy jelentés aktuális és interaktív verziójának eléréséhez a felhasználónak tudnia kell:

  1. URL címe, vagy
  2. A jelentés pontos címe és tulajdonosa. Opcionálisan a PDF-jelentés tartalmazhat egy linket a jelentés online vagy beágyazott változatára.

Ha a felhasználó ismeri a jelentés URL-címét, és hozzáfér a jelentéshez, a böngésző megjeleníti azt. Ha nincs hozzáférése, akkor egy párbeszédpanel nyílik meg, amely tájékoztatja, hogy hozzáférést kell kérnie a tulajdonostól. A felhasználó kiválaszthatja, hogy milyen típusú hozzáférést szeretne kérni. A tulajdonos értesítést kap, és amint megadja a hozzáférést, a felhasználó meg tudja nyitni a jelentést. Ha a felhasználó nem ismeri a jelentés URL-címét, akkor más módon kell kapcsolatba lépnie a jelentés tulajdonosával. A tulajdonosnak ezután manuálisan meg kell keresnie a jelentést, és hozzáférést kell biztosítania a felhasználónak.

A PDF formátumú jelentéseket jelszóval lehet védeni, de ugyanúgy megoszthatók, mint bármely más fájltípus. Az illetéktelen megosztás megakadályozása érdekében a jelentés tulajdonosa megakadályozhatja, hogy más felhasználók PDF-be exportálják a jelentést. Ezzel a nyomtatás és a másolás is kikapcsolható.

Végül pedig használhatja az elosztott jelentésmegosztást is, amelyhez rendszeresen küldött, automatikusan generált e-maileket használhat, amelyek a következőket tartalmazzák:

  • a jelentés naprakész változatának linkje
  • a jelentés előnézete (általában az első néhány oldal)
  • a jelentés PDF-másolatát tartalmazó mellékletet a jelentés elküldésének napjára vonatkozó adatokkal

A végső címzettek továbbíthatják az e-mailt másoknak. Ha valamelyik felhasználónak nincs hozzáférése a jelentéshez, a jelentés URL-jének megnyitásakor kérhet hozzáférést. A PDF-jelentést továbbra is meg tudják majd nyitni.

Ez a módszer azonban hasznos lehet, ha a jelentést a szervezeten kívüli személyeknek is el kell juttatnia.

Legutóbbi cikkek