Perché alcuni prodotti (telefoni, computer, pacchetti software…) diventano molto più famosi di altri? Quali sono i meccanismi che seguiamo quando facciamo una scelta? L’abbondanza di dati che affluiscono ogni secondo nei database di portali web, compagnie telefoniche, social network ecc., oggi identificati con il termine “Big Data”, ha reso questi temi affrontabili con metodi statistici e matematici.



Recentemente, in una collaborazione fra l’Università di Limerick, l’Università di Oxford e quella di Harvard, abbiamo pubblicato sui Proceedings of the National Academy of Sciences of the United States of America un nuovo modello matematico che descrive l’utilizzo di applicazioni da parte degli utenti di Facebook.



Il lavoro si basa su un set di dati risalente al 2007, che riporta il numero di installazioni di applicazioni in un periodo di due mesi. Questo tipo di dati non contiene informazioni personali e quindi non ha implicazioni in termini di privacy degli utenti di Facebook (è come se un produttore di pasta ci fornisse i dati delle vendite giornaliere di spaghetti, fusilli, tagliatelle ecc. senza dirci chi e dove li compra). All’epoca, gli utenti di Facebook potevano vedere in ogni momento una lista delle applicazioni più installate in assoluto e un elenco delle applicazioni recentemente installate dai propri “amici”. Ci siamo chiesti: dopo un periodo iniziale di osservazione, è possibile capire ciò che rende un’applicazione più installata di un’altra?



Il nostro modello si basa su due meccanismi molto semplici: una preferenza ad installare applicazioni sulla base dell’elenco “best seller” delle installazioni totali e una che si basa invece sulla popolarità recente delle applicazioni installate dai propri amici. L’analisi ha richiesto circa 15.000 ore macchina sui super computer dell’Irish Centre for High-End Computing (ICHEC), in cui abbiamo studiato il comportamento del modello al variare di questi due meccanismi e confrontato il modello con altri modelli proposti in simili contesti. A dispetto della semplicità dell’idea, i dettagli quantitativi sono tutt’altro che ovvi. Alla fine, è emerso che, sebbene gli utenti sembrino influenzati da entrambi i meccanismi, l’effetto dominante sulla dinamica delle applicazioni è causato dal comportamento recente degli altri utenti. La lista “best seller” delle applicazioni più installate ha un effetto modesto sul comportamento degli utenti di Facebook, ma l’istinto di copiare il comportamento degli amici è di gran lunga il meccanismo dominante. Questo “copiare” il comportamento degli altri capita spesso nella vita reale. Quante volte abbiamo letto un libro poco noto perché consigliati da un amico?

Il nostro lavoro presenta due maggiori risultati. Da una parte, proponiamo un modello matematico che è in grado di riprodurre non solo la statistica globale, ma anche l’andamento temporale delle installazioni. In altre parole, il nostro modello, a differenza di molti altri, è in grado di predire con ragionevole accuratezza, per esempio, non solo quanto saranno installate le applicazioni più usate, ma quali saranno le applicazioni più importanti dopo un certo numero di giorni. Questo è un passo significativo, perché tipicamente modelli molto diversi presentano la stessa statistica globale: è proprio nel comportamento dettagliato delle singole applicazioni che è difficile trovare un accordo con i dati.

D’altra parte, abbiamo usato un metodo basato sul dialogo fra i dati e la modellizzazione matematica. Oggi si parla molto di Big Data, i grandi set di dati che possono rivoluzionare la nostra conoscenza. Spesso, però, i Big Data sono affrontati con metodi statistici che, pur avendo molte qualità, non permettono di capire quali meccanismi causali siano realmente importanti. Per questo proponiamo modelli matematici come un metodo per migliorare questi approcci.

Può apparire strano applicare sofisticati metodi analitici ad un oggetto per molti aspetti frivolo come le applicazioni installate su Facebook. Tuttavia, questi modelli sono molto generali e potrebbero rivelarsi utili per altri comportamenti (magari nella vita reale, invece che in quella online), una volta si rendessero disponibili i dati. Questo tipo di ricerche sono presumibilmente molto intense nel segreto dei laboratori dei proprietari di Big Data, che le usano per ottimizzare strategie di marketing o battere la concorrenza. I lavori come il nostro, invece, sono pubblici, servono a capire meglio il comportamento umano e forse sono utili a renderci più consapevoli su quali elementi tendano ad influenzarci di più quando prendiamo una decisione e, quindi, usiamo la nostra libertà.