Hardware e software

Google sotto accusa: "Legge le email per addestrare Bard"

L'intelligenza artificiale del colosso di Mountain View potrebbe essere stata addestrata anche tramite le mail degli utenti, ma non è chiaro se abbia utilizzato i dati personali contenuti nei profili di Gmail

Filippo Jacopo Carpani 20 Settembre 2023 - 15:38

Google sotto accusa: "Legge le email per addestrare Bard"

Google potrebbe aver utilizzato dati di Gmail per addestrare Bard, il suo chatbot basato sull’intelligenza artificiale. La polemica è scoppiata a marzo 2023, quando una ricercatrice nell’ambito dell’Ai, Kate Crawford, ha chiesto al programma da dove provenisse il suo dataset. Nella risposta, Bard ha inserito anche “dati interni a Google: questi includono dati da Google search, Gmail e altri prodotti”.

Umm, anyone a little concerned that Bard is saying its training dataset includes... Gmail?

I'm assuming that's flat out wrong, otherwise Google is crossing some serious legal boundaries. pic.twitter.com/0muhrFeZEA
— Kate Crawford (@katecrawford) March 21, 2023

Il colosso di Mountain View si è affrettato a correre ai ripari, affermando che si era trattato di un errore del chatbot appena rilasciato, chiamato in gergo tecnico hallucination (fenomeno che si verifica quando un modello linguistico di grandi dimensioni fa affermazioni plausibili ma senza basi reali). In un post su X, Google ha confermato che “nessun dato personale verrà usato nell’addestramento di Bard”, per poi cancellarlo senza fornire ulteriori spiegazioni e lasciando un dubbio fondamentale: cosa viene considerato un dato personale in una email? Già in passato Google ha usato un linguaggio ambiguo per rispondere a questa domanda.

È proprio il chatbot incriminato a chiarire la distinzione. Secondo Bard, nome e cognome, indirizzo, data di nascita, numero di telefono, sesso, abitudini di acquisto e posizione sono le informazioni protette dalla privacy, mentre altre come il corpo di una mail, il suo oggetto e il destinatario sono pubbliche. Di conseguenza, queste potrebbero essere usate nei dataset di training anche se, a detta di Bard, non vi sono prove a riguardo.

Non sarebbe la prima volta in cui dati del genere vengono utilizzati per addestrare modelli di machine learning incentrati sul linguaggio. Il sistema Smart Compose della stessa Gmail è stato completato ricorrendo a messaggi di posta elettronica scritti dagli utenti. Inoltre, un ex ingegnere di Google, Blake Lemoine, ha affermato che Bard è stato costruito partendo proprio dalle basi di Smart Compose. I due programmi, infatti, condividono il motore LaMDA, il che potrebbe implicare che la chatbot sia stata addestrata partendo da dataset che già contenevano informazioni prese da email. Google, dopotutto, non ha mai chiarito quali dati siano stati utilizzati durante lo sviluppo di Bard.

Inoltre, già nel 2021 un gruppo di ricercatori di Mountain View ha pubblicato un documento in cui si sottolineavano i rischi per la privacy insiti nell’utilizzo di modelli linguistici di grandi dimensioni: “La forma più diretta di fuga di dati personali si verifica quando questi vengono estratti da programmi addestrati su dataset contenenti informazioni riservate”.

Gli scienziati di Google hanno dimostrato la possibilità di estrarre questo genere di informazioni da ChatGpt, sostenendo che le tecniche spiegate nella loro ricerca possono essere applicate a qualunque modello simile, compreso Bard.

Commenti

Disclaimer

I commenti saranno accettati:

dal lunedì al venerdì dalle ore 10:00 alle ore 20:00
sabato, domenica e festivi dalle ore 10:00 alle ore 18:00.