Quello dei dati coi quali addestrare le intelligenze artificiali è un problema sempre più sensibile. Sia perché, come dimostra la causa in corso tra il New York Times e OpenAI, non tutte le Big Tech bussano prima di entrare nella stanza. E a fronte di una OpenAI che ora sta stringendo accordi coi principali editori, c’è chi come Google e Meta e non si fa problemi a dare in pasto alle proprie IA i contenuti generati dai loro utenti.
Sia perché, e lo testimonia la recente figuraccia rimediata da Google con AI Overview, non sempre quello che si trova su Internet merita di essere “metabolizzato” dalle intelligenze artificiali. Come quando Google ha suggerito di mettere la colla nella pizza per evitare che coli il formaggio, o di mangiare un sasso al giorno per ottenere il corretto apporto di sali minerali.
Mark Zuckerberg però deve pensarla diversamente perché, come riporta Reuters, Meta ha comunicato oggi che comincerà a impiegare i contenuti dei social media europei per addestrare i suoi modelli di intelligenza artificiale generativa. In particolare, secondo quanto riportato in un post sul blog dell’azienda, Meta addestrerà i modelli Llama coi contenuti che gli utenti dell’Unione Europea condivideranno pubblicamente su piattaforme come Instagram e Facebook.
Questa nuova strategia uniforma l’approccio di Meta in Europa a quello già adottato in altre regioni del mondo per l’addestramento dei suoi modelli di intelligenza artificiale, nonostante le precedenti precauzioni dovute alle stringenti normative europee in materia di privacy e trasparenza.
Il capo delle politiche di Meta ha dichiarato a Reuters in un’intervista di settembre che sarebbero stati esclusi dal training i post privati e i messaggi condivisi solo con gli amici. Ad aprile, quando Meta ha iniziato a rilasciare le versioni più recenti di Llama, il chief product officer dell’azienda ha invece riferito sempre a Reuters che stavano “ancora lavorando sulla modalità giusta per farlo in Europa”.
Lo scorso mese, il colosso dei social media ha annunciato che avrebbe iniziato a informare gli utenti di Facebook e Instagram nella regione europea e nel Regno Unito su come utilizza le informazioni pubbliche condivise sui servizi di Meta per sviluppare e migliorare l’intelligenza artificiale. Tuttavia, il gruppo di advocacy NYOB (none of your business) ha presentato denunce in vari paesi europei, sostenendo che le notifiche fossero insufficienti, poiché le normative europee sulla privacy richiedono a Meta di ottenere un consenso esplicito dagli utenti.
L’utilizzo dei social media per l’addestramento delle IA prone vari problemi. Il primo riguarda la privacy e il consenso: gli utenti potrebbero non essere consapevoli che i loro post sono utilizzati per addestrare algoritmi di intelligenza artificiale, anche se sono pubblici.
C’è poi una questione di trasparenza: Meta (e in generale le aziende che raccolgono dati) non sono chiare riguardo a come vengono utilizzate le informazioni che generiamo. Gli utenti dovrebbero essere informati chiaramente e in modo comprensibile su come i loro dati saranno utilizzati.
Soprattutto, si pone una questione di bias e rappresentatività: i dati raccolti dai social media possono essere fortemente sbilanciati, alle volte proprio per le stesse censure imposte dai social network. Non tutte le categorie demografiche sono rappresentate equamente sui social network, e ciò potrebbe portare a modelli di intelligenza artificiale che riflettono i bias correnti, reiterano le discriminazioni e le iniquità nei risultati prodotti.
Per quanto riguarda i contenuti inappropriati, infine, sappiamo tutti quanto i social media contengano una vasta gamma di contenuti offensivi o falsi. Addestrare modelli di intelligenza artificiale su questi dati potrebbe portare a risultati “problematici”.
Non resta quindi che attendere che l’IA di Meta restituisca suggerimenti complottisti o terrapiattisti. Poi, si spera, qualcuno correrà ai ripari.


