Raporty Google BigQuery i Google Data Studio

23 sierpnia 2024 r.

Jak już wiesz z naszego poprzedniego wpisu na bloguDaktela oferuje szeroką gamę narzędzi do raportowania. Aby uprościć sprawę, możesz myśleć o Daktela jako o posiadającym 2 gałęzie narzędzi raportujących i analitycznych:

  1. Statystyki i analizy dostępne w aplikacji internetowej Daktela
  2. Rozwiązanie Google

Chociaż Daktela jest złożoną aplikacją internetową i zawiera solidne narzędzia analityczne po wyjęciu z pudełka, w niektórych przypadkach przydatne może być wybranie usługi zewnętrznej. Warto rozważyć skorzystanie z jednej z nich, zwłaszcza jeśli:

  • Posiadają duże ilości danych
  • Korzystanie z kilku central PBX
  • Potrzeba połączenia tabel
  • Zaawansowane filtrowanie danych w raportach
  • Martwią się o obciążenie centrali PBX
  • Wymagają krótszych czasów ładowania

Nowoczesne i super wydajne rozwiązanie Google jest idealnym kandydatem do tych celów. Przyjrzymy mu się w tym artykule.

Ogólnie rzecz biorąc, rozwiązanie stanowi połączenie przechowywania danych (Google BigQuery), narzędzia do raportowania (Google Data Studio), usług stowarzyszonych (Google Cloud Platform - bezpieczeństwo, zarządzanie, utrzymanie, monitorowanie) i przepływów danych (Daktela), tworząc portfolio ETL i BI.

Niewątpliwą zaletą jest to, że rozwiązanie jest dostępne za pośrednictwem przeglądarki internetowej. Nie jest potrzebne żadne dedykowane oprogramowanie; wszystko jest dostępne z dowolnego komputera przy użyciu konta Google z wystarczającymi uprawnieniami. Funkcjonalność systemu zależy wyłącznie od szybkości połączenia internetowego.

Daktela - automatyczna synchronizacja

Na stronie bigquery.daktela. com skonfigurowano okresowe zadania, które przekształcają dane z central PBX i ładują je do BigQuery (BQ) w regularnych odstępach czasu. Te tak zwane skrypty uruchomieniowe są napisane w języku Java.

Interwał synchronizacji wynosi 120 minut i 24 godziny. Dane są ładowane okresowo co 2 godziny, a na koniec każdego dnia o północy ładowana jest kolejna partia konsolidacyjna w celu zapewnienia integralności danych. W wybranych centralach PBX możliwe jest skrócenie 2-godzinnego interwału do 1 godziny.

W pojedynczych przypadkach w BQ mogą być tworzone pozornie zduplikowane wpisy. Uruchomiony skrypt wyszukuje duplikaty, jego dane wyjściowe są monitorowane, a powiadomienia są wysyłane do oprogramowania monitorującego. Duplikaty są automatycznie usuwane podczas codziennej synchronizacji. Oznacza to, że nie trzeba wykonywać żadnych dodatkowych czynności, aby zapewnić aktualność danych raportowania.

Ponieważ skrypty uruchamiania wszystkich projektów połączonych z BQ są uruchamiane na serwerze bigquery.daktela. com, są one zaplanowane tak, aby działały w różnym czasie, dzięki czemu nie konkurują ze sobą, a zasoby systemowe są efektywnie wykorzystywane. Przyczynia się to również do stosunkowo krótkiego czasu przetwarzania. Etap synchronizacji (ładowanie godzinowej lub dziennej partii dla wszystkich instancji projektu) to kwestia od kilku do kilkudziesięciu minut - zazwyczaj 10-30 minut, do 60-90 minut w skrajnych przypadkach. Podczas debugowania synchronizację można również uruchomić ręcznie.

Wszystkie skrypty generują plik tekstowy dziennika.

Dostęp do serwera bigquery.daktela. com jest zabezpieczony za pomocą klucza SSH. Serwer jest zarządzany w całości przez administratorów IT firmy Daktela, którzy zarządzają również dostępem użytkowników.

Google BigQuery

BigQuery to w pełni zarządzana, bezserwerowa hurtownia danych (DWH), która umożliwia skalowalną analizę bardzo dużych ilości danych (rzędu petabajtów: 1PB ≈ 1024 TB ≈ 1 milion GB). Jest to platforma jako usługa, która obsługuje zapytania przy użyciu ANSI SQL.

Google zapewnia również funkcje partnerskie, takie jak uczenie maszynowe, narzędzia geolokalizacyjne, narzędzia analityczne i statystyczne oraz zarządzanie dostępem i prawami użytkowników.

Architektura BigQuery jest w całości zarządzana przez Google, co oznacza, że użytkownicy nie muszą martwić się o skalowalność, dystrybucję mocy obliczeniowej, tworzenie kopii zapasowych, konserwację itp. Rozwiązanie jest unikalne, ponieważ jego konstrukcja pozwala na otrzymywanie wyników zapytań dotyczących terabajtów danych w ciągu kilku sekund i petabajtów w ciągu kilku minut.

Umożliwia to ładowanie raportów oraz interaktywne filtrowanie i sortowanie danych w czasie rzeczywistym.

BigQuery to nie tylko baza danych - to nierelacyjny system analitycznego przetwarzania danych online zoptymalizowany pod kątem odczytu i analizy. Możliwe jest również wstawianie danych i łączenie BQ z zewnętrznymi źródłami danych.

Jego kluczowe właściwości to skalowalność, niezawodność, dostępność, niskie koszty eksploatacji, możliwość samodzielnej naprawy i zdecentralizowana architektura. Alternatywami DWH dla BQ są np. Amazon Redshift i Microsoft Azure SQL.

Dane w BQ są zorganizowane w zestawy danych (podobne do bazy danych) składające się z tabel, widoków i innych jednostek, takich jak modele uczenia maszynowego. Prawa dostępu, edycji, usuwania itp. można ustawić dla całego zbioru danych lub dla poszczególnych tabel, które są jego częścią.

Platforma Google Cloud służy do zarządzania kontami użytkowników, a użytkownicy muszą mieć aktywne konto Google, aby pracować z BQ. Wszystkie dostępy są zarządzane i sprawdzane przez administratorów Daktela.

Więcej informacji można znaleźć na oficjalnej stronie Google Cloud.

Kwoty i limity

Google ogranicza maksymalne obciążenie systemu, ustawiając limity i kwoty na dany okres (np. liczbę zapytań, rozmiar przesyłanych danych itp.) BQ jest przeznaczony do dużych projektów z ogromną ilością danych, a z perspektywy big data nawet największe i najbardziej złożone centrale Daktela są małym i prostym zbiorem danych.

Dowiedz się więcej o kwotach i limitach na oficjalna strona Google.

Google Data Studio

Google Data Studio (DS) to narzędzie do wizualizacji danych i raportowania podobne do Microsoft Power BI lub Tableau. Jest to aplikacja internetowa z przyjaznym dla użytkownika interfejsem, w której można tworzyć raporty, dodając tabele i wykresy oraz uzupełniając je tekstem i elementami wizualnymi.

Data Studio może być używane do:

  • Tworzenie i edytowanie poszczególnych raportów
  • Zarządzanie raportami, do których użytkownik ma dostęp
  • Wyświetlanie raportów
  • Tworzenie, edytowanie i zarządzanie źródłami danych
  • Zarządzanie dostępem do tych raportów i źródeł danych

Każdy raport składa się z:

  • Źródło danych
  • Treść
  • Ustawienia dostępu

Wiele raportów może korzystać z tego samego źródła danych, a raport może korzystać z kilku różnych źródeł danych.

Prawa dostępu są przyznawane w środowisku Google oddzielnie dla każdej usługi:

Dostępy i uprawnienia BigQuery można skonfigurować dla każdego z nich:

  • Projekt (dostęp wewnętrzny Daktela)

Dostępy i uprawnienia Data Studio można skonfigurować dla każdego z nich:

  • Współdzielone źródło danych

Zarówno w BQ, jak i DS użytkownik widzi tylko te jednostki, do których ma prawa dostępu. Nie ma możliwości uzyskania informacji o jednostkach innych użytkowników (zestawach danych, tabelach, źródłach danych, raportach), dopóki nie spróbuje uzyskać do nich dostępu za pośrednictwem adresu URL.

DataStudio - źródła danych

Termin źródło danych odnosi się łącznie do:

  • Konfiguracja połączenia ze źródłem danych
  • Przekształcanie i formatowanie otrzymanych danych
  • Częstotliwość synchronizacji danych
  • Prawa dostępu

Wszystkie te elementy tworzą encję Google DS, z którą użytkownik może pracować. Jednostka nie jest źródłem danych, ale raczej modelem danych lub schematem. Można ją również traktować jako łącznik do źródła danych, zazwyczaj DWH.

Google Data studio może wykorzystywać połączenie ze źródłem danych do łączenia się z różnymi rodzajami DWH, od natywnych Google (Google BQ, Arkusze Google, Google Analytics, Google Ads, Google Surveys, Google Cloud itp.) do powszechnie używanych (Microsoft SQL Server, MySQL, PostgreSQL, pliki CSV itp.) do konektorów innych firm. Pełna lista konektorów jest dostępna na stronie Google ..

Podłączenie źródła danych powoduje utworzenie nowej encji. Definiuje ona:

  • Połączenie z BigQuery lub źródłem danych
  • Zapytana tabela lub specyfikacja SQL
  • Formatowanie wymiarów
  • Zagregowane wskaźniki
  • Parametry - zazwyczaj okres czasu dla danych
  • Dostęp - którzy użytkownicy mogą edytować źródło danych i/lub edytować jego definicję
  • Częstotliwość synchronizacji danych ("świeżość danych") - zazwyczaj 1 godzina, w zakresie od 1 minuty do 12 godzin.
  • Udostępnianie źródła danych - ograniczone do bieżącego raportu lub dozwolone udostępnianie w wielu raportach

Istnieją inne sposoby zawężania danych w raporcie niż bezpośrednio w źródle danych. Można również użyć "kontrolek" i "ukrytych filtrów", które zostały opisane poniżej. Możliwe jest również łączenie poszczególnych źródeł danych ("mieszanie danych"), zapewniając złożoną agregację danych, która w przeciwnym razie byłaby trudna do osiągnięcia dla użytkowników bez dobrej znajomości SQL.

Każde żądanie danych z raportu jest tłumaczone na zapytanie SQL. Jego wynik jest tymczasowo zapisywany (buforowany) przez czas określony w "świeżości danych", zapewniając niemal natychmiastowy czas odpowiedzi i niskie koszty na zapytanie.

Właściciel raportu automatycznie staje się właścicielem źródła danych utworzonego w raporcie. Możliwe jest dodawanie udostępnionych źródeł danych z własnych raportów do innych raportów, których jesteś właścicielem. Aby używać i edytować źródła danych należące do innych użytkowników, należy poprosić o pozwolenie właściciela, a on musi go udzielić.

W przypadku usunięcia osadzonego źródła danych z raportu zostanie ono usunięte. W przypadku usunięcia udostępnionego źródła danych z raportu nie zostanie ono usunięte.

DataStudio - raporty

Po skonfigurowaniu źródła danych można utworzyć raport, dodając wykresy, w których można wybrać wymiar i/lub metryki ze źródła danych. Aby układ był jak najbardziej przejrzysty, można dodać wiele stron raportu i dodać inne elementy, takie jak tekst i obrazy.

Pola

Pole to kolumna danych. Istnieją 2 różne typy: wymiary i metryki. Wymiary zawierają kategorie lub jednostki, które chcesz zmierzyć. Metryki opisują wymiary za pomocą liczb.

Oprócz pól automatycznie ładowanych ze źródła danych, można tworzyć własne pola:

  • Łączenie wymiarów w celu utworzenia nowego wymiaru
  • Łączenie metryk ze sobą lub z wymiarem w celu utworzenia nowej metryki

Wymiary

Wymiar to kategoria informacji lub danych, a dokładniej tablica danych. Np. podczas pomiaru ruchu na stronie internetowej niektóre wymiary mogą obejmować przeglądarkę, stronę internetową, język itp. Jeśli korzystasz ze źródła danych opartego na bazie danych lub tabeli, wymiar reprezentuje kolumnę tabeli.

W DS można zmienić tytuł, typ danych (tekst, liczba, data itp.) i opis każdego wymiaru.

Metryki

Metryka to zagregowane obliczenie lub operacja zastosowana do zestawu danych, np. liczba wpisów, suma, maksimum, minimum, średnia itp. Jest to analogiczne do funkcji agregującej w zapytaniu SQL.

Na wykresach i w tabelach można łączyć wymiary i metryki.

Wykresy

Dostępne są następujące opcje:

  • Tabele (zwykłe i przestawne)
  • Wykresy
  • Karty wyników - elementy z jedną miarą

Filtry

Filtrowanie w DS jest interpretowane w tle jako edycja SQL źródła danych. W rezultacie otrzymasz te same dane, niezależnie od tego, czy zastosujesz filtr, gdy dane wejdą do DS (definicja zapytania SQL) lub na poziomie elementu raportu (ukryty filtr wykresu lub tabeli), czy też osoba przeglądająca raport zastosuje filtr (filtr użytkownika = element sterujący). Filtry będą zawsze tłumaczone na zapytania SQL w BQ.

Można jednak osiągnąć szybsze czasy ładowania poprzez prawidłowe zastosowanie filtrów. Zaleca się zdefiniowanie konkretnego zapytania SQL dla całego źródła danych i otrzymywanie tylko odpowiednich danych zamiast żądania całej tabeli i filtrowania na poziomie raportu. Oszczędza to również czas podczas ładowania i zarządzania dostępnymi komponentami podczas procesu edycji raportu.

Inne elementy

Inne elementy, które można dodać do raportów:

  • Linki
  • Zdjęcia
  • Zawartość zewnętrzna - osadzony adres URL
  • Parametry (okres czasu, adres e-mail odwiedzającego, parametry własne)

Ponieważ raporty znajdują się pod określonym adresem URL, możliwe jest osadzanie raportów w dokumentach online, stronach internetowych itp.

DataStudio - dostępy

Istnieją dwa różne rodzaje dostępu:

  1. Widok
  2. Edytuj

Użytkownicy z dostępem do widoku nie mogą wprowadzać żadnych zmian w układzie lub ustawieniach raportu. Mogą jedynie wchodzić w interakcje z raportem i zazwyczaj eksportować go do formatu PDF, drukować lub tworzyć kopię (którą mogą następnie edytować, tj. dowiedzieć się, jak została utworzona).

Użytkownicy z dostępem Edit mogą edytować zawartość raportu i zmieniać jego ustawienia. Właściciel raportu może zarządzać innymi właściwościami dostępu, takimi jak uniemożliwianie innym użytkownikom dodawania kolejnych użytkowników.

Można również zezwolić na dostęp za pomocą linku. Spowoduje to zmianę powyższego na:

  1. Udostępnianie linków wyłączone - tylko określeni użytkownicy będą mieli dostęp
  2. Udostępnianie linków włączone - określeni użytkownicy mają dostęp, plus:
    • 2.1. Każdy w grupie z linkiem może przeglądać (np. tylko użytkownicy w Twojej firmie).
    • 2.2. Każdy w grupie z linkiem może edytować
    • 2.3. Każdy, kto ma link, może zobaczyć
    • 2.4. Każdy, kto ma link, może edytować
    • 2.5. Każdy w Internecie może znaleźć raport i go obejrzeć (nawet bez linku)
    • 2.6. Każdy w Internecie może znaleźć raport i edytować go (nawet bez linku)

Jeśli chcesz uniknąć konieczności konfigurowania różnych poziomów dostępu do raportów, możesz ustawić go na 2.3 lub 2.5, ale nie zalecamy tego, jeśli raporty zawierają jakiekolwiek poufne informacje. Nie jest możliwe wyświetlenie konkretnego ruchu w raporcie - Google Analytics wyświetli tylko zanonimizowane informacje.

Dostęp do danych źródłowych opisano powyżej.

Aby uzyskać dostęp do bieżącej i interaktywnej wersji raportu, użytkownik musi wiedzieć, że

  1. Jego adres URL lub
  2. Dokładny tytuł raportu i jego właściciel. Opcjonalnie raport PDF może zawierać łącze do wersji online lub osadzonej wersji raportu.

Jeśli użytkownik zna adres URL raportu i ma do niego dostęp, przeglądarka wyświetli go. Jeśli nie ma dostępu, otworzy się okno dialogowe z informacją, że musi poprosić właściciela o dostęp. Użytkownik może wybrać typ dostępu, o który chce poprosić. Właściciel otrzyma powiadomienie, a po przyznaniu dostępu użytkownik będzie mógł otworzyć raport. Jeśli użytkownik nie zna adresu URL raportu, musi skontaktować się z właścicielem raportu w inny sposób. Właściciel musi następnie ręcznie znaleźć raport i przyznać użytkownikowi dostęp do niego.

Raporty w formacie PDF mogą być chronione hasłem, ale mogą być udostępniane jak każdy inny typ pliku. Aby zapobiec nieautoryzowanemu udostępnianiu, właściciel raportu może uniemożliwić innym użytkownikom eksportowanie raportu do formatu PDF. Powoduje to również wyłączenie funkcji drukowania i kopiowania.

Wreszcie, można również korzystać z rozproszonego udostępniania raportów za pomocą okresowo wysyłanych, automatycznie generowanych wiadomości e-mail, które zawierają:

  • link do aktualnej wersji raportu
  • podgląd raportu (zazwyczaj kilka pierwszych stron)
  • załącznik z kopią raportu w formacie PDF z danymi z dnia wysłania raportu

Odbiorcy końcowi mogą przekazać wiadomość e-mail innym osobom. Jeśli użytkownicy nie mają dostępu do raportu, po otwarciu adresu URL raportu będą mogli poprosić o dostęp. Nadal będą mogli otworzyć raport PDF.

Metoda ta może być jednak przydatna w przypadku konieczności dystrybucji raportu do osób spoza organizacji.

Najnowsze artykuły