Organizzazione dei Dati GA4 in BigQuery
Navigando nel tuo account Google Cloud Platform dovrai familiarizzare con la seguente struttura gerarchica:
Fonte dell’immagine: https://cloud.google.com/bigquery/docs/resource-hierarchy
Google Cloud Storage è composto da uno o più progetti
Ogni progetto ha un nome e un ID progetto. Un progetto consiste in un insieme di utenti, un insieme di API, fatturazione, autenticazione e impostazioni di monitoraggio per quelle API.
Ricordiamo che un’ API rappresenta un meccanismo che consente a due software (come BigQuery e GA4) di comunicare tra loro.
Un progetto può consistere in uno o più set di dati
Cliccando sull’ID del progetto, puoi visualizzare i set di dati. Per ogni proprietà GA4 collegata al tuo progetto BigQuery, viene aggiunto un singolo set di dati denominato “analytics_<property_id>” al tuo progetto BigQuery.
L’ID della proprietà si riferisce al tuo ID della proprietà di Analytics, che puoi trovare direttamente nelle impostazioni della tua proprietà GA4.
Clicca sul set di dati “analytics_<property_id>” e annota l’ID del set di dati; faremo riferimento a questo ID più avanti quando creeremo prompt di testo in ChatGPT per generare le query SQL.
Tabelle di dati
Clicca nuovamente sul set di dati “analytics_<property_id>”.
Dovresti vedere le seguenti due tabelle di dati:
- events_(<numero di giorni>)
- events_intraday_<numero di giorni>
Tutti i dati degli eventi GA4 del giorno (o dei giorni) precedente sono disponibili nella tabella di dati ‘events_’.
Questa tabella viene importata automaticamente per ogni giorno di esportazione. Per esempio, events_(1) indica che tutti i dati degli eventi GA4 del giorno precedente sono disponibili in questa tabella di dati. events_(18) significa invece che tutti i dati degli eventi GA4 degli ultimi 18 giorni sono disponibili in questa tabella di dati.
Tutti i dati degli eventi GA4 del giorno corrente sono disponibili nella tabella di dati ‘events_intraday_’. Questa tabella viene aggiornata automaticamente durante il giorno. Ecco perché si chiama tabella ‘events_intraday’. Di solito non interroghiamo i dati GA4 dalla tabella di dati ‘events_intraday_’.
Struttura della tabella
Cliccando sulla tabella di dati ‘events_’ verrà mostrata la struttura di quella tabella (nota anche come ‘Schema’); osserva attentamente i vari campi disponibili sotto la scheda ‘SCHEMA’. Faremo riferimento a questi campi quando creeremo prompt di testo in ChatGPT.
Ti condivido il link da aggiungere ai preferiti con la documentazione sullo schema di esportazione BigQuery [GA4] fornita da Google. Qui puoi trovare ulteriori informazioni su ciascun campo: https://support.google.com/analytics/answer/7029846?hl=it#zippy=%2Cevent
Le tabelle di dati “events_”
Le tabelle di dati “events_” sono denominate “events_YYYYMMDD”, dove “YYYYMMDD” si riferisce alla data di importazione della tabella in BigQuery. “YYYY” indica l’anno, ad esempio 2024. “MM” indica il mese, per esempio 01 (Gennaio). “DD” indica il giorno, per esempio 14. Pertanto, la tabella di dati importata in BigQuery il 14 gennaio 2024 la troveremo nominata come events_20240114.
Se desideri visualizzare i dati relativi a una data diversa, clicca sul menu a discesa della data e seleziona una data differente.
Informazioni di Archiviazione
Cliccando sulla scheda “Dettagli” puoi determinare la dimensione della tua tabella di dati.
È sempre una buona pratica, prima di interrogare i dati da una tabella, controllare la dimensione della tabella. Se la dimensione della tabella di dati è di soli pochi kilobyte (KB) o megabyte (MB), non c’è motivo di preoccuparsi. Tuttavia, se la dimensione della tabella è in gigabyte (GB), terabyte (TB) o petabyte (PB), dovresti prestare attenzione a come interrogare i tuoi dati.
Ricordiamo che il costo mensile per l’utilizzo di BigQuery dipende dai seguenti fattori:
- La quantità di dati che hai memorizzato in BigQuery (ovvero il costo di archiviazione).
- La quantità di dati che elabori con ogni query eseguita (ovvero il costo della query).
I primi 10 GB di archiviazione attiva sono gratuiti ogni mese. Dopo di che, ti verrà addebitato $0.020 per ogni GB di archiviazione attiva. Il primo terabyte di dati elaborati è gratuito ogni mese. Successivamente, ti verrà addebitato $5 per ogni terabyte (TB) di dati elaborati.
Visualizzazione dei dati della tabella
Cliccando sulla scheda “Anteprima” puoi visualizzare i dati nella tabella di dati “events_”: è sempre una buona pratica, prima di interrogare i dati da una tabella, fare un’anteprima della tabella. Molti utenti ignari, eseguono query solo per avere un’anteprima dei dati. Questo potrebbe costare notevolmente se accidentalmente interroghi gigabyte o terabyte di dati.
Invece di eseguire query solo per avere un’anteprima dei dati in una tabella di dati, clicca sulla scheda “Anteprima” per visualizzare l’anteprima della tabella. In questo caso non avrai costi.
L’anteprima della tabella ti darà un’idea del tipo di dati disponibili nella tabella senza dover interrogare la tabella stessa.
Dall’anteprima della seguente tabella, puoi vedere che la tabella è composta da righe e colonne: ogni riga corrisponde a un singolo evento GA4.
Ad esempio, la prima riga corrisponde all’evento “first_visit”, mentre la seconda riga corrisponde all’evento “session_start”.
Ogni evento ha informazioni sui parametri specifici dell’evento.
I parametri dell’evento in GA4 sono informazioni aggiuntive sull’evento che vengono inviate insieme all’evento stesso. Le informazioni sui parametri degli eventi GA4 sono memorizzate nella tabella di dati nel formato chiave-valore: il campo chiave (event_params.key) è il nome del parametro dell’evento.
Ad esempio: la chiave “page_title” ha un campo valore di tipo string.
Il campo valore è un oggetto che contiene il valore del parametro in uno dei suoi quattro campi:
- event_params.value.string_value
- event_params.value.int_value
- event_params.value.float_value
- event_params.value.double_value
Una volta che hai compreso come i dati GA4 sono memorizzati nelle tabelle di dati, ti sarà più facile familiarizzare con le Query su BigQuery.
Data Scientist
Sono un Data Scientist con esperienza nell’applicazione di tecniche avanzate di Machine Learning per l’analisi di complessi set di dati nel campo del marketing digitale. Specializzato nell’uso di Python, sviluppo modelli predittivi e di analisi dei dati che permettono di identificare e risolvere criticità nei progetti.