I big data continuano a fare notizia, ma che cos'รจ esattamente e perchรฉ รจ sia un dono che un potenziale ostacolo a un'accurata misurazione dell'audience? Analizziamo i pro, i contro e i modi per farli funzionare.ย ย
Cosa sono i big data?
Nel mondo dei media lineari, i big data si riferiscono in genere a due tipi di flussi di dati prodotti dagli stessi sistemi che forniscono la programmazione agli utenti finali: I dati di ritorno (RPD) provenienti dai decoder via cavo o via satellite (come Dish o DirecTV) e il riconoscimento automatico dei contenuti (ACR) provenienti dalle smart TV collegate a Internet (come Samsung o Vizio).
Dati ACR
Piuttosto che un registro dei cambi di canale, la tecnologia ACR monitora le immagini sullo schermo televisivo. Le immagini agiscono come impronte digitali, che vengono confrontate con un'ampia libreria di riferimento per identificare il programma o lo spot in questione. Le immagini vengono registrate temporalmente per capire quando avviene la riproduzione.
Dati RPD
Registra su quale canale รจ sintonizzato il set-top box e a che ora avviene il cambio di canale. Questi dati possono essere abbinati a un palinsesto televisivo per determinare quale programma รจ in onda in quel particolare momento e con i dati dei server pubblicitari del provider o dei suoi partner per capire a quale pubblicitร รจ esposta la famiglia.
In entrambi i casi, gli utenti finali consentono la raccolta dei dati sui loro dispositivi. La collaborazione รจ relativamente alta perchรฉ la raccolta dei dati non serve solo per le misurazioni, ma anche per funzioni molto desiderate come le preferenze degli utenti e le raccomandazioni di contenuti. Un set di dati RPD o ACR puรฒ coprire ben oltre 30 milioni di dispositivi.
Perchรฉ i big data sono un problema?
Un tempo la gente aveva solo una manciata di canali tra cui scegliere. Un indice di ascolto1 superiore a 60 (come il finale di M*A*S*H nel 1983) o addirittura a 40 (come il finale di Seinfeld nel 1998) รจ oggi impensabile per uno show sceneggiato. Viviamo in un mondo molto piรน frammentato, con un elenco molto lungo di opzioni di programmazione.
Questo รจ ottimo per i telespettatori, ma complica le cose per le ricerche basate sui panel: In un panel nazionale di 101.000 persone, un programma televisivo con un rating di 0,2 sarร visto da 80 famiglie, e forse solo da una nell'area metropolitana di Atlanta o Dallas. Con decine di milioni di dispositivi da misurare, i big data consentono alle societร di ricerca di riportare l'utilizzo della TV a un livello molto piรน granulare, fornendo una copertura per molti piรน programmi con audience piccole e spesso diverse. Ma da soli, i big data non sono mai stati pensati per essere utilizzati per la misurazione dell'audience.
Sfida n. 1: i grandi dati non sono rappresentativi
Per effettuare transazioni in tutta tranquillitร , gli acquirenti e i venditori di media hanno bisogno di una soluzione di misurazione che rifletta la popolazione in tutta la sua diversitร : Tutti i gruppi di etร , le razze, le etnie e molte altre caratteristiche demografiche e comportamentali chiave devono essere presenti e proporzionali nei dati sottostanti.
Ma le dimensioni non garantiscono la rappresentativitร . Analizzando i conteggi degli installati nel panel Nielsen National TV, abbiamo scoperto che le case con RPD sono sproporzionatamente piรน vecchie e meno diversificate dal punto di vista razziale rispetto alla popolazione generale. Le famiglie ispaniche, ad esempio, sono sottorappresentate di circa il 30% e i capifamiglia di etร inferiore ai 25 anni sono quasi del tutto assenti dai dataset RPD. D'altra parte, i set di dati ACR sono piรน giovani della popolazione generale e hanno anche un maggior numero di membri del nucleo familiare. L'uso della ponderazione statistica nei big data puรฒ nascondere il problema, ma non puรฒ compensare la mancanza di comportamenti di visione unici di un pubblico sottorappresentato.
A peggiorare le cose, una soluzione di misurazione che si basi esclusivamente sui dati RPD e ACR non consentirebbe di individuare le famiglie che trasmettono via etere2 e in streaming, che rappresentano una fetta crescente della torta.
Sfida n. 2: i grandi dati potrebbero non catturare tutti i comportamenti di visualizzazione
Anche se includessero famiglie rappresentative, i dati RPD e ACR non rilevano la visione da tutti i set-top box della famiglia o da altri televisori presenti in casa che non siano smart TV. Questi apparecchi aggiuntivi possono trasmettere programmi diversi a membri diversi della famiglia (come programmi di cucina in cucina o programmi per bambini nella stanza dei giochi), quindi non solo le famiglie con i big data non sono rappresentative della popolazione, ma i big data stessi non sono rappresentativi di tutte le visualizzazioni che possono avvenire in quelle case.
Un problema frustrante per le societร di ricerca che si affidano alla RPD รจ che spesso il set-top box rimane acceso quando il televisore collegato รจ spento. Questa sintonizzazione "fantasma" puรฒ esagerare la visione effettiva dal 145% al 260%, a seconda del provider. Esistono modelli che possono essere implementati per compensare questo fenomeno, ma senza un punto di riferimento, come un panel informato da una visione reale, puรฒ essere difficile sviluppare l'euristica giusta.
Anche l'ACR non รจ immune da problemi di qualitร dei dati. Alcune applicazioni di streaming per smart TV bloccano l'ACR dall'acquisizione dei contenuti sullo schermo mentre l'applicazione รจ in uso. Potrebbe sembrare che il televisore sia spento quando in realtร il contenuto รจ stato bloccato da un'applicazione. Inoltre, la maggior parte dei provider monitora solo una piccola parte di tutta la programmazione disponibile. In una recente analisi, abbiamo scoperto che i fornitori di ACR attualmente monitorano solo il 31% di tutte le stazioni disponibili e che il 23% dei minuti registrati proviene ancora da stazioni non monitorate. Senza impronte digitali di riferimento con cui confrontarsi, questa visione non viene segnalata.
Sfida n. 3: i big data mancano dei dati demografici degli spettatori
I fornitori di RPD e ACR acquisiscono i dati di sintonizzazione da milioni di dispositivi, ma non sanno chi li sta guardando, che รจ ciรฒ che gli inserzionisti chiedono in ultima analisi.
Un modo per ovviare a questa mancanza รจ quello di collaborare con fornitori demografici terzi. Queste aziende mantengono un registro della composizione demografica di ogni famiglia del Paese, e una societร di ricerca potrebbe tentare di modellare chi guarda cosa semplicemente dalla somma totale dei dati di sintonizzazione di una determinata famiglia e della composizione demografica di quella famiglia.
Un programma per bambini? Deve essere di un bambino in casa. Un incontro di wrestling? Deve provenire da uno spettatore maschio. Senza un punto di riferimento reale che aiuti l'algoritmo di apprendimento automatico, รจ facile capire dove questo tipo di modellazione potrebbe fallire. Non sorprende che l'affidabilitร diminuisca progressivamente con l'aumentare delle dimensioni del nucleo familiare, il che finisce per compromettere l'accuratezza dei dati per le famiglie piรน numerose, come quelle con bambini, gli spettatori non bianchi e quelli piรน giovani.ย
Il valore persistente dei dati panelย
Per i marchi e le aziende del settore dei media alla ricerca di una soluzione stabile e affidabile per la misurazione dell'audience, le sfide sopra descritte non sono un inizio. I dati dei panel sono fondamentali per superare queste limitazioni.
In Nielsen, quando analizziamo i dati RPD o ACR, siamo in grado di identificare le case e i dispositivi che fanno parte dei nostri panel e di confrontare i dati di sintonizzazione in quelle case con il comportamento di visione catturato dai nostri meter. Utilizzando i nostri panel come fonte di veritร in quelle case, possiamo individuare i punti in cui i big data si discostano dalla veritร e sviluppare modelli robusti per correggere tali anomalie.
Ad esempio, abbiamo sviluppato una metodologia per capire dove si trova un dispositivo all'interno di una casa e abbinare i suoi dati di sintonizzazione a spettatori specifici. Un altro modello ci aiuta a determinare se un televisore รจ spento mentre il set-top box รจ acceso. Un altro modello ancora รจ in grado di distinguere gli aggiornamenti dei dispositivi che vengono registrati come sintonizzazioni extra, nonchรฉ le situazioni in cui un dispositivo restituisce piรน di un evento di sintonizzazione allo stesso tempo.
Persone, non dispositivi
In definitiva, la ricerca sul pubblico riguarda le persone, non i dispositivi.
Non c'รจ dubbio che i big data siano una grande aggiunta all'arsenale del ricercatore dei media. Aprono le porte a un reporting piรน granulare di quanto fosse possibile in passato. Ma รจ intrinsecamente difettoso, parziale e, soprattutto, miope: Cattura i dati di sintonizzazione, non quelli di visualizzazione.
Per sfruttare il suo potenziale, deve essere ripulito, completato, calibrato e arricchito con dati demografici rilevanti. ร qui che entrano in gioco i dati dei panel. L'apprendimento automatico funziona al meglio con dati di formazione e convalida solidi, e nel settore non esistono dati di formazione migliori dei dati dei panel rappresentativi a livello nazionale che costituiscono il cuore dell'attuale attivitร di ricerca sui media.
Nielsen Bisogno di sapere passa in rassegna i fondamenti della misurazione dell'audience e demistifica gli argomenti piรน scottanti del settore dei media. Leggete ogni articolo qui.
Nota
1 L'indice di ascolto domestico รจ la percentuale di tutte le famiglie del Paese sintonizzate su un determinato programma.
2 Programmazione disponibile tramite un "segnale" proveniente da un'antenna. Le trasmissioni via etere (OTA) sono state il primo tipo di televisione disponibile.