Allarme per l’intelligenza artificiale, entro il 2026 potremmo esaurire i dati per addestrarla

I ricercatori mentre l’intelligenza artificiale (AI) raggiunge l’apice della sua popolarità, hanno avvertito che il settore potrebbe essere a corto di dati di addestramento, il carburante che fa funzionare potenti sistemi di intelligenza artificiale. Ciò potrebbe rallentare la crescita dei modelli di intelligenza artificiale, in particolare dei modelli linguistici di grandi dimensioni, e potrebbe persino alterare la traiettoria della rivoluzione dell’intelligenza artificiale.
La potenziale mancanza di dati considerando quanti ce ne sono suo web perché potrebbe essere un problema? Esiste un modo per affrontare il rischio?

Ecco perché i dati di alta qualità sono importanti per l’intelligenza artificiale
Abbiamo bisogno di molti dati per addestrare algoritmi IA potenti, accurati e di alta qualità, ad esempio, ChatGPT è stato addestrato su 570 gigabyte di dati di testo, ovvero circa 300 miliardi di parole, allo stesso modo, l’algoritmo di diffusione stabile (che è alla base di molte app di generazione di immagini AI come DALL-E, Lensa e Midjourney) è stato addestrato sul set di dati LIAON-5B composto da 5,8 miliardi di coppie di immagini-testo. Praticamente se un algoritmo viene addestrato su una quantità insufficiente di dati, produrrà risultati imprecisi o di bassa qualità.
È importante anche la qualità dei dati di allenamento, dati di bassa qualità come post sui social media o fotografie sfocate sono facili da reperire, ma non sono sufficienti per addestrare modelli di intelligenza artificiale ad alte prestazioni.
Il testo tratto da piattaforme di social media potrebbe essere parziale o pregiudizievole o potrebbe includere disinformazione o contenuti illegali che potrebbero essere replicati dal modello: ad esempio, quando Microsoft ha provato ad addestrare il suo bot AI utilizzando i contenuti di Twitter, ha imparato a produrre risultati razzisti e misogini.
È questo il motivo per cui gli sviluppatori di intelligenza artificiale cercano contenuti di alta qualità come testi di libri, articoli online, articoli scientifici, Wikipedia e alcuni contenuti web filtrati. L’Assistente Google è stato addestrato su 11.000 romanzi rosa presi dal sito di autopubblicazione Smashwords per renderlo più colloquiale.

Abbiamo abbastanza dati?
L’industria dell’intelligenza artificiale ha addestrato i sistemi di intelligenza artificiale su set di dati sempre più grandi, motivo per cui ora disponiamo di modelli ad alte prestazioni come ChatGPT o DALL-E 3. La ricerca allo stesso tempo, mostra che gli stock di dati online stanno crescendo molto più lentamente dei set di dati utilizzati per addestrare l’intelligenza artificiale. Lo scorso anno, un gruppo di ricercatori in un documento ha previsto che, se continueranno le attuali tendenze di formazione dell’intelligenza artificiale, finiremo prima del 2026 i dati di testo di alta qualità. Hanno inoltre stimato che i dati linguistici di bassa qualità saranno esauriti tra il 2030 e il 2050, e i dati di immagini di bassa qualità tra il 2030 e il 2060.
L’intelligenza artificiale secondo il gruppo di contabilità e consulenza PwC, entro il 2030 potrebbe contribuire fino a 15,7 trilioni di dollari all’economia mondiale, ma l’esaurimento dei dati utilizzabili potrebbe rallentarne lo sviluppo.

Dobbiamo preoccuparci?
La situazione anche se i punti di cui sopra potrebbero allarmare alcuni fan dell’intelligenza artificiale, potrebbe non essere così grave come sembra. Ci sono molte incognite su come in futuro si svilupperanno i modelli di intelligenza artificiale, così come su alcuni modi per affrontare il rischio di carenza di dati: un’opportunità per gli sviluppatori di intelligenza artificiale è quella di migliorare gli algoritmi in modo da utilizzare più efficacemente i dati che già possiedono.
È probabile che nei prossimi anni saranno in grado di addestrare sistemi di intelligenza artificiale ad alte prestazioni utilizzando meno dati e forse meno potenza di calcolo. Ciò contribuirebbe anche a ridurre l’impronta di carbonio dell’intelligenza artificiale.
È stato evidenziato che un’altra opzione è utilizzare l’intelligenza artificiale per creare dati sintetici per addestrare i sistemi, in altre parole, gli sviluppatori possono semplicemente generare i dati di cui hanno bisogno, curati per adattarsi al loro particolare modello di intelligenza artificiale.
È noto che diversi progetti già utilizzano contenuti sintetici, spesso provenienti da servizi di generazione di dati come Mostly AI, ciò diventerà più comune in futuro.
Gli sviluppatori cercano anche contenuti al di fuori dello spazio online gratuito, come quello detenuto da grandi editori e archivi offline, si pensi ai milioni di testi pubblicati prima di Internet, resi disponibili digitalmente, potrebbero fornire una nuova fonte di dati per i progetti di intelligenza artificiale.
News Corp, uno dei maggiori proprietari di contenuti di notizie al mondo (ha gran parte dei suoi contenuti dietro un paywall) recentemente ha affermato che sta negoziando accordi sui contenuti con gli sviluppatori di intelligenza artificiale. Tali accordi costringerebbero le società di intelligenza artificiale a pagare per i dati di addestramento, mentre finora li hanno per lo più cancellati da Internet gratuitamente.
I creatori di contenuti hanno protestato contro l’uso non autorizzato dei loro contenuti per addestrare modelli di intelligenza artificiale, con alcune aziende che hanno citato in giudizio come Microsoft, OpenAI e Stability AI. Essere remunerati per il proprio lavoro, può aiutare a ripristinare parte dello squilibrio di potere, che esiste tra i creativi e le società di intelligenza artificiale.

Avatar photo

About Pino Silvestri

Pino Silvestri, blogger per diletto, fondatore, autore di Virtualblognews, presente su Facebook e Twitter.
View all posts by Pino Silvestri →