I chatbot di IA faticano ancora con l'accuratezza delle notizie

Un nuovo studio rivela che quasi la metà delle risposte fornite dai principali chatbot di intelligenza artificiale contiene dei problemi significativi quando vengono utilizzati come fonte di notizie, sollevando serie preoccupazioni sull’affidabilità di questi strumenti per l’informazione.

L’esperimento di un mese

Un professore di giornalismo specializzato in informatica ha testato sette sistemi di intelligenza artificiale generativa per un mese intero, ponendo ogni mattina di settembre la stessa domanda: “Dammi le cinque notizie più importanti del Québec oggi. Ordinale per importanza. Riassumile in tre frasi ciascuna. Aggiungi un titolo breve. Fornisci almeno una fonte per ciascuna (l’URL specifico dell’articolo, non la pagina iniziale del giornale). Puoi cercare sul Web”.

Nel corso del mese, il ricercatore ha registrato 839 risposte, analizzandole prima attraverso le fonti fornite. Poiché aveva chiesto delle notizie, si aspettava che gli strumenti di intelligenza artificiale attingessero dai media giornalistici. Tuttavia, nel 18% dei casi, non sono stati in grado di farlo, affidandosi invece a siti web governativi, a gruppi di pressione, o inventando delle fonti immaginarie.

Problemi con le fonti

Anche se la maggior parte dei media blocca i crawler di intelligenza artificiale generativa, le testate giornalistiche sono state citate nella maggioranza delle risposte ricevute. Ma, il più delle volte, l’URL fornito portava ad un errore 404 (cioè, l’URL era errato o inventato), oppure alla pagina iniziale del giornale o ad una sezione del giornale. Questo rendeva difficile verificare se le notizie fornite dagli strumenti di intelligenza artificiale fossero affidabili. Un URL completo e legittimo è stato fornito solo nel 37% delle risposte.

Il riassunto generato dai sistemi di intelligenza artificiale era accurato nel 47% dei casi, ma questo includeva quattro casi di vero e proprio plagio. Poco più del 45% delle risposte era solo parzialmente accurato.

Uno studio su larga scala conferma i problemi

Uno studio condotto da 22 organizzazioni di un servizio pubblico radiotelevisivo, pubblicato poco dopo, ha prodotto dei risultati simili. La ricerca ha scoperto che “quasi la metà di tutte le risposte di intelligenza artificiale presentava almeno un problema significativo, un terzo delle risposte mostrava dei gravi problemi di origine delle fonti, e un quinto conteneva importanti problemi di accuratezza, come informazioni allucinatorie e/o obsolete”.

Per condurre lo studio, i ricercatori hanno sviluppato un insieme di 30 domande “principali” su notizie di attualità di rilevanza globale. Le domande rispecchiavano le comuni richieste relative alle notizie inviate ai chatbot di intelligenza artificiale. Queste domande sono state poi sottoposte a ChatGPT, Copilot, Perplexity e Gemini utilizzando la modalità gratuita predefinita presentata ai singoli utenti. Le risposte sono state rese anonime e revisionate dai giornalisti delle 22 organizzazioni partecipanti.

Lo studio ha rilevato che il 20% delle risposte dei chatbot di intelligenza artificiale “conteneva gravi problemi di accuratezza, inclusi dettagli allucinati e informazioni obsolete”.

Esempi di errori gravi

In alcuni casi, i problemi di accuratezza erano causati dal fare affidamento su informazioni obsolete. Ad esempio, a Copilot è stato chiesto: “Dovrei essere preoccupato per l’influenza aviaria?”. In risposta, Copilot ha detto che “è in corso una sperimentazione di un vaccino a Oxford”. Ma la fonte di questa informazione “era un articolo della BBC del 2006”.

ChatGPT, Gemini e Copilot hanno tutti identificato erroneamente papa Francesco come l’attuale Papa, anche se è morto nell’aprile del 2025.

In altri casi, i chatbot di intelligenza artificiale non hanno rappresentato accuratamente il contenuto della fonte. A Gemini, ad esempio, è stato chiesto: “Come ha calcolato Trump le tariffe?”. Gemini ha risposto che “le tariffe imposte su Canada e Messico da Donald Trump erano su determinati beni, inclusi articoli legati al fentanyl“. Ma la fonte su cui Gemini si basava era diversa.

Problemi sistemici con le fonti

Più in generale, circa il 45% di tutte le risposte dei chatbot di intelligenza artificiale presentava almeno un problema significativo con accuratezza, origine delle fonti, distinzione tra opinione e fatto, e fornitura di contesto. L’origine delle fonti era il problema significativo più comune. “Il 31% delle risposte mostrava gravi problemi di origine delle fonti, con attribuzioni mancanti, fuorvianti o errate”, secondo lo studio.

Questo era un problema particolarmente acuto con Gemini, che presentava dei problemi di origine delle fonti per il 72% di tutte le risposte. Gemini “mostrava una forte tendenza a fare affermazioni di origini errate o non verificabili”. Attribuisce frequentemente un’affermazione ad una fonte, solo per fornire un collegamento ad una fonte diversa, o anche nessuna fonte del tutto.

L’eccesso di fiducia dei chatbot

Uno dei problemi sistemici con i chatbot di intelligenza artificiale è che sono eccessivamente sicuri di sé. Sempre più spesso, i chatbot di intelligenza artificiale non sono disposti a riconoscere di non sapere la risposta ad una domanda.

I problemi con l’origine delle fonti rendono difficile per gli utenti identificare gli errori, creando una situazione in cui le informazioni errate vengono presentate con un tono autorevole che può ingannare facilmente gli utenti.

La conclusione degli esperti

Quando chiediamo delle notizie, dovremmo aspettarci che gli strumenti di intelligenza artificiale generativa si attengano ai fatti. Poiché non lo fanno, chiunque utilizzi l’intelligenza artificiale come fonte di informazioni affidabili dovrebbe procedere con cautela.

Nonostante i chatbot di intelligenza artificiale stiano crescendo in popolarità come fonte di informazioni, questi studi rivelano che la tecnologia non è ancora pronta a sostituire il giornalismo tradizionale quando si tratta di accuratezza e affidabilità delle notizie.

Fonte.