Raporty Google BigQuery i Google Data Studio

September 2, 2024

Jak już wiesz z naszego poprzedni wpis na blogu, Daktela oferuje szeroką gamę narzędzi raportowania. Aby wszystko było proste, możesz pomyśleć o Daktelie jako o dwóch gałęziach narzędzi raportowania i analitycznego:

Statystyki i analityka dostępne w aplikacji internetowej Daktela
Rozwiązanie Google

Chociaż Daktela jest złożoną aplikacją internetową i zawiera solidne narzędzia analityczne po wyjęciu z pudełka, w niektórych przypadkach przydatne może być wybranie usługi zewnętrznej. Możesz pomyśleć o użyciu jednego, szczególnie jeśli:

Posiadać duże ilości danych
Użyj kilku centrali PBX
Trzeba połączyć tabele
Potrzebujesz zaawansowanego filtrowania danych raportów
Martwisz się o obciążenia PBX
Wymagają szybszych czasów ładowania

Nowoczesne i super wydajne rozwiązanie Google jest idealnym kandydatem do tych celów. Przyjrzymy się temu szybko w tym artykule.

Ogólnie rzecz biorąc, rozwiązanie to połączenie przechowywania danych (Google BigQuery), narzędzia raportowania (Google Data Studio), usług partnerskich (Google Cloud Platform — bezpieczeństwo, zarządzanie, konserwacja, monitoring) oraz przepływów danych (Daktela), tworząc portfolio ETL i BI.

Wyraźną zaletą jest to, że rozwiązanie jest dostępne za pomocą przeglądarki internetowej. Nie jest potrzebne żadne dedykowane oprogramowanie; wszystko jest dostępne z dowolnego komputera za pomocą konta Google z wystarczającymi prawami. Funkcjonalność systemu zależy tylko od szybkości połączenia internetowego.

Daktela — automatyczna synchronizacja

Istnieją okresowe zadania skonfigurowane na bigquery.daktela.com które przekształcają dane z centrali PBX i ładują je BigQuery (BQ) w regularnych odstępach czasu. Te tak zwane skrypty uruchamiania są napisane w Javie.

Interwał synchronizacji wynosi 120 minut i 24 godziny. Dane są ładowane okresowo co 2 godziny, a pod koniec każdego dnia o północy ładowana jest kolejna partia konsolidacyjna, aby zapewnić integralność danych. W wybranych centrali PBX możliwe jest skrócenie 2-godzinnego interwału do 1 godziny.

W pojedynczych przypadkach pozornie zduplikowane wpisy mogą być tworzone w BQ. Skrypt uruchomiony szuka duplikatów, jego dane wyjściowe są monitorowane, a powiadomienia są wysyłane do oprogramowania monitorującego. Duplikaty są automatycznie usuwane podczas codziennej synchronizacji. Oznacza to, że nie musisz robić nic więcej, aby aktualizować dane raportowe.

Ponieważ skrypty uruchamiania wszystkich projektów podłączonych do BQ są uruchomione na bigquery.daktela.com serwer, mają działać w różnym czasie, aby nie konkurować ze sobą, a więc zasoby systemowe są efektywnie wykorzystywane. Przyczynia się to również do stosunkowo krótkiego czasu przetwarzania. Etap synchronizacji (ładowanie partii godzinowej lub dziennej dla wszystkich instancji projektu) to kwestia minut do kilkudziesięciu minut — zazwyczaj 10-30 minut, w skrajnych przypadkach do 60-90 minut. Podczas debugowania synchronizację można również rozpocząć ręcznie.

Wszystkie skrypty generują dziennik plików tekstowych.

Dostęp do bigquery.daktela.com serwer jest zabezpieczony za pomocą klucza SSH. Serwer jest zarządzany w całości przez administratorów IT firmy Daktela, którzy również zarządzają dostępem użytkowników.

Google BigQuery

BigQuery to w pełni zarządzana, bezserwerowa hurtownia danych (DWH), która umożliwia skalowalną analizę na bardzo dużych ilościach danych (w kolejności petabajtów: 1PB ≈ 1024 TB ≈ 1 milion GB). Jest to platforma jako usługa, która obsługuje zapytania przy użyciu ANSI SQL.

Google zapewnia również funkcje partnerskie, takie jak uczenie maszynowe, narzędzia geolokalizacyjne, narzędzia analityczne i statystyczne oraz dostęp użytkowników i zarządzanie prawami.

Architektura BigQuery jest w całości zarządzana przez Google, co oznacza, że użytkownicy nie muszą martwić się o takie rzeczy, jak skalowalność, dystrybucja mocy obliczeniowej, tworzenie kopii zapasowych, konserwacja itp. Rozwiązanie jest wyjątkowe, ponieważ jego konstrukcja umożliwia otrzymywanie wyników żądań ponad terabajtów danych w ciągu kilku sekund i petabajtów w kilka minut.

Pozwala to na ładowanie raportów oraz interaktywne filtrowanie i sortowanie danych w czasie rzeczywistym.

BigQuery to nie tylko baza danych — to nierelacyjny system przetwarzania analitycznego online zoptymalizowany do odczytu i analizy. Możliwe jest również wstawianie danych i podłączenie BQ do zewnętrznych źródeł danych.

Jego kluczowe właściwości to skalowalność, niezawodność, dostępność, niskie koszty eksploatacji, możliwości samodzielnej naprawy i zdecentralizowana architektura. Alternatywami DWH dla BQ są np. Amazon Redshift i Microsoft Azure SQL.

Dane w BQ są podzielone na zbiory danych (podobne do bazy danych) składające się z tabel, widoków i innych elementów, takich jak modele uczenia maszynowego. Prawa dostępu, edycji, usuwania itp. można ustawić dla całego zbioru danych lub dla poszczególnych tabel, które są jego częścią.

Platforma Google Cloud służy do zarządzania kontami użytkowników, a użytkownicy muszą mieć aktywne konto Google, aby pracować z BQ. Wszystkie dostępu są zarządzane i sprawdzane przez administratorów Daktela.

Więcej informacji można znaleźć na oficjalnym Strona Google Cloud.

Kontyngenty i limity

Google ogranicza maksymalne obciążenie systemu poprzez ustawienie limitów i limitów na dany okres czasu (np. liczba zapytań, wielkość przesyłanych danych itp.) BQ jest przeznaczony do dużych projektów z ogromną ilością danych, a z perspektywy dużych zbiorów danych nawet największe i najbardziej złożone centrale centrali Daktela są małym i prostym zestawem danych.

Dowiedz się więcej o limitach i limitach oficjalna strona Google.

Studio danych Google

Google Data Studio (DS) to narzędzie do wizualizacji i raportowania danych podobne do Microsoft Power BI lub Tableau. Jest to aplikacja internetowa z przyjaznym dla użytkownika interfejsem, w którym można tworzyć raporty, dodając tabele i wykresy oraz uzupełniając je elementami tekstowymi i wizualnymi.

Data Studio może być używane do:

Tworzenie i edycja poszczególnych raportów
Zarządzanie raportami, do których użytkownik ma dostęp
Wyświetlanie raportów
Tworzenie, edycja i zarządzanie źródłami danych
Zarządzanie dostępem do tych raportów i źródeł danych

Każdy raport składa się z:

Źródło danych
Zawartość
Ustawienia dostępu

Wiele raportów może wykorzystywać to samo źródło danych, a raport może wykorzystywać kilka różnych źródeł danych.

Prawa dostępu są przyznawane w środowisku Google oddzielnie dla każdej usługi:

Dostępy i uprawnienia BigQuery można skonfigurować dla każdego z nich:

Projekt (wewnętrzne dostępu Daktela)

Dostępy i uprawnienia do programu Data Studio można skonfigurować dla każdego z nich:

Udostępnione źródło danych

Zarówno w BQ, jak i DS użytkownik widzi tylko te podmioty, do których ma prawa dostępu. Nie mają możliwości dowiedzenia się o podmiotach innych użytkowników (zestawy danych, tabele, źródła danych, raporty), dopóki nie spróbują uzyskać do nich dostępu za pośrednictwem adresu URL.

DataStudio — źródła danych

Termin Źródło danych łącznie odnosi się do:

Konfigurowanie połączenia ze źródłem danych
Transformacja i formatowanie otrzymanych danych
Częstotliwość synchronizacji danych
Prawa dostępu

Wszystkie te elementy tworzą podmiot Google DS, z którym użytkownik może pracować. Jednostka nie jest źródłem danych, ale raczej modelem lub schematem danych. Możesz także myśleć o nim jako o łączniku do źródła danych, zazwyczaj DWH.

Google Data Studio może korzystać z połączenia ze źródłem danych do łączenia się z różnymi typami DWH, od natywnych Google (Google BQ, Google Arkusze, Google Analytics, Google Ads, Google Surveys, Google Cloud itp.) po powszechnie używane (Microsoft SQL Server, MySQL, PostgreSQL, pliki CSV itp.) po złącza innych firm. Pełna lista złączy jest dostępna na Google witryna.

Połączenie źródła danych powoduje utworzenie nowego podmiotu. Definiuje:

Połączenie z BigQuery lub źródłem danych
Zapytana tabela lub specyfikacja SQL
Formatowanie wymiarów
Metryki zagregowane
Parametry — zazwyczaj okres czasu dla danych
Dostęp — które użytkownicy mogą edytować źródło danych i/lub edytować jego definicję
Częstotliwość synchronizacji danych („świeżość danych”) — zazwyczaj 1 godzina, w zakresie od 1 minuty do 12 godzin
Udostępnianie źródła danych — ograniczone do bieżącego raportu lub dozwolone udostępnianie w wielu raportach

Istnieją inne sposoby zawężenia danych w raporcie, inne niż bezpośrednio w źródle danych. Możesz także użyć „elementów sterujących” i „ukrytych filtrów”, które są opisane poniżej. Możliwe jest również łączenie poszczególnych źródeł danych („data blending”), zapewniając złożoną agregację danych, która w przeciwnym razie byłaby trudna do osiągnięcia dla użytkowników bez dobrej wiedzy SQL.

Każde żądanie danych z raportu jest tłumaczone na zapytanie SQL. Jego wynik jest tymczasowo zapisywany (buforowany) przez czas ustawiony w „świeżości danych”, zapewniając niemal natychmiastowy czas odpowiedzi i niskie koszty zapytania.

Właściciel raportu automatycznie staje się właścicielem źródła danych utworzonego w raporcie. Możliwe jest dodawanie udostępnionych źródeł danych z własnych raportów do innych raportów, które posiadasz. Aby korzystać i edytować źródła danych należących do innych użytkowników, musisz poprosić właściciela o zgodę i musi je udzielić.

Jeśli usuniesz osadzone źródło danych z raportu, zostanie ono usunięte. Jeśli usuniesz udostępnione źródło danych z raportu, nie zostanie ono usunięte.

DataStudio — raporty

Po skonfigurowaniu źródła danych można utworzyć raport, dodając wykresy, na których można wybrać wymiar i/lub metryki ze źródła danych. Aby układ był jak najbardziej przejrzysty, możesz dodać wiele stron raportu i dodać inne elementy, takie jak tekst i zdjęcia.

Pola

Pole jest kolumną danych. Istnieją 2 różne typy: wymiary a metryka. Wymiary zawierają kategorie lub elementy, które chcesz zmierzyć. Metryki opisują wymiary za pomocą liczby.

Oprócz pól automatycznie wczytywanych ze źródła danych, możesz utworzyć własne pole poprzez:

Łączenie wymiarów w celu stworzenia nowego wymiaru
Łączenie metryk ze sobą lub z wymiarem w celu utworzenia nowej metryki

Wymiary

Wymiar to kategoria informacji lub danych, a dokładniej tablica danych. Np. podczas pomiaru ruchu w witrynie niektóre wymiary mogą być Przeglądarka, Strona internetowa, Język itp. Jeśli używasz źródła danych opartego na bazie danych lub tabelach, wymiar reprezentuje kolumnę tabeli.

W DS można zmienić tytuł, typ danych (tekst, numer, datę itp.) oraz opis każdego wymiaru.

Metryki

Metryka to zagregowane obliczenie lub operacja stosowana do zbioru danych, np. liczba wpisów, suma, maksimum, minimum, średnia itp. Jest analogiczna do funkcji agregowanej w zapytaniu SQL.

Możesz łączyć wymiary i metryki na wykresach i tabelach.

Wykresy

Dostępne są następujące elementy:

Stoły (regularne i przestawne)
Wykresy
Karty wyników — elementy z pojedynczą metryką

Filtry

Filtrowanie w DS jest interpretowane w tle jako edycja źródła danych SQL. W konsekwencji otrzymasz te same dane, niezależnie od tego, czy stosujesz filtr, gdy dane wejdą do DS (definicja zapytania SQL), czy na poziomie elementu raportu (ukryty filtr wykresu lub tabeli), czy też osoba przeglądająca raport zastosuje filtr (filtr użytkownika = element sterujący). Filtry będą zawsze tłumaczone na zapytania SQL w BQ.

Możesz jednak osiągnąć szybsze czasy ładowania, stosując poprawnie filtry. Zaleca się zdefiniowanie konkretnego zapytania SQL dla całego źródła danych i otrzymywanie tylko odpowiednich danych zamiast żądania całej tabeli i filtrowania na poziomie raportu. Oszczędza to również czas podczas ładowania dostępnych komponentów i zarządzania nimi podczas procesu edycji raportu.

Inne elementy

Inne elementy, które możesz dodać do swoich raportów:

Linki
Obrazki
Zawartość zewnętrzna — wbudowany adres URL
Parametry (okres czasu, adres e-mail odwiedzającego, parametry własne)

Ponieważ raporty znajdują się pod określonym adresem URL, możliwe jest osadzanie raportów w dokumentach online, stronach internetowych itp.

DataStudio — dostęp

Istnieją dwa różne rodzaje dostępu:

Widok
Edytuj

Użytkownicy z dostępem do widoku nie mogą wprowadzać żadnych zmian w układzie lub ustawieniach raportu. Mogą wchodzić w interakcje tylko z raportem i zazwyczaj eksportować go do pliku PDF, wydrukować lub utworzyć kopię (którą mogą następnie edytować, tj. dowiedzieć się, jak został utworzony).

Użytkownicy z dostępem do edycji mogą edytować zawartość raportu i zmieniać jego ustawienia. Właściciel raportu może zarządzać innymi właściwościami dostępu, na przykład uniemożliwiać innym użytkownikom dodawanie większej liczby użytkowników.

Możesz również zezwolić na dostęp za pomocą linku. Zmieniłoby to powyższe na:

Udostępnianie linków wyłączone — dostęp będą mieli tylko określeni użytkownicy
Udostępnianie linków na — określeni użytkownicy mają dostęp, plus:
- 2.1. Każdy w grupie z linkiem może wyświetlać (np. tylko użytkownicy w Twojej firmie)
- 2.2. Każdy w grupie z linkiem może edytować
- 2.3. Każdy, kto ma link, może wyświetlić
- 2.4. Każdy, kto ma link, może edytować
- 2.5. Każdy w Internecie może znaleźć raport i obejrzeć go (nawet bez linku)
- 2.6. Każdy w Internecie może znaleźć raport i edytować go (nawet bez linku)

Jeśli chcesz uniknąć konieczności konfigurowania różnych poziomów dostępu do raportów, możesz ustawić je na 2.3 lub 2.5, ale nie zalecamy tego, jeśli raporty zawierają jakiekolwiek poufne informacje. Nie można wyświetlić określonego ruchu raportu — Google Analytics wyświetla tylko anonimowe informacje.

Dostęp do danych źródłowych opisano powyżej.

Aby uzyskać dostęp do aktualnej i interaktywnej wersji raportu, użytkownik musi wiedzieć:

jego adres URL, lub
Dokładny tytuł raportu i jego właściciel. Opcjonalnie raport PDF może zawierać łącze do wersji online lub osadzonej raportu.

Jeśli użytkownik zna adres URL raportu i ma dostęp do raportu, przeglądarka wyświetli go. Jeśli nie mają dostępu, otworzy się okno dialogowe informujące ich, że muszą poprosić właściciela o dostęp. Użytkownik może wybrać rodzaj dostępu, którego chce zażądać. Właściciel otrzyma powiadomienie, a po udzieleniu dostępu użytkownik będzie mógł otworzyć raport. Jeśli użytkownik nie zna adresu URL raportu, musi skontaktować się z właścicielem raportu w inny sposób. Właściciel musi następnie ręcznie znaleźć raport i przyznać użytkownikowi dostęp do niego.

Raporty w formacie PDF mogą być chronione hasłem, ale można je udostępniać jak każdy inny typ pliku. Aby zapobiec nieautoryzowanemu udostępnianiu, właściciel raportu może uniemożliwić innym użytkownikom eksportowanie raportu do pliku PDF. Wyłącza to również drukowanie i kopiowanie.

Wreszcie, możesz również użyć rozproszonego udostępniania raportów przy użyciu okresowo wysyłanych automatycznie generowanych wiadomości e-mail zawierających:

link do aktualnej wersji raportu
podgląd raportu (zwykle kilka pierwszych stron)
załącznik z kopią raportu w formacie PDF z danymi od dnia wysłania raportu

Odbiorcy końcowi mogą przekazywać wiadomość e-mail innym osobom. Jeśli któryś z użytkowników nie ma dostępu do raportu, po otwarciu adresu URL raportu będzie mógł zażądać dostępu. Nadal będą mogli otworzyć raport PDF.

Ta metoda może być jednak przydatna, jeśli chcesz rozpowszechniać raport osobom spoza organizacji.