I filtri probabilistici con l’intelligenza artificiale per combattere la disinformazione sui social media

I ricercatori della Rice University hanno scoperto un modo più efficiente per le aziende di social media di impedire che la disinformazione si diffonda online utilizzando filtri probabilistici addestrati con l’intelligenza artificiale.
Il nuovo metodo alla scansione dei social media presentato alla Conferenza 2020 sui sistemi di elaborazione delle informazioni neurali (NeurIPS 2020), è delineato in uno studio di Anshumali Shrivastava Professore assistente presso il Dipartimento di Informatica della Rice University, in collaborazione con Zhenwei Dai laureato in statistica. Il loro metodo applica l’apprendimento automatico in modo più intelligente per migliorare le prestazioni dei filtri Bloom, una tecnica ampiamente utilizzata ideata mezzo secolo fa.
Anshumali Shrivastava e Zhenwei Dai utilizzando un database di test di notizie false e virus informatici, hanno mostrato che il loro filtro Adaptive Learned Bloom (Ada-BF) richiede il 50% in meno di memoria per raggiungere lo stesso livello di prestazioni dei filtri Bloom appresi.
I due ricercatori per spiegare il loro metodo al filtraggio, hanno citato alcuni dati di Twitter. Il gigante dei social media ha recentemente rivelato che i suoi utenti aggiungevano circa 500 milioni di tweet il giorno e i tweet in genere apparivano online un secondo dopo che un utente aveva premuto invia.
Anshumali Shrivastava ha detto:
«Intorno al periodo delle elezioni ricevevano circa 10.000 tweet al secondo e con una latenza di un secondo pari a circa sei tweet al millisecondo. Se desideri applicare un filtro che legge ogni tweet e contrassegna quelli con informazioni note per essere false, il tuo meccanismo di segnalazione non può essere più lento di sei millisecondi o rimarrai indietro e non recupererai mai il ritardo. I tweet contrassegnati se vengono inviati per un’ulteriore revisione manuale, è anche di vitale importanza avere un basso tasso di falsi positivi, in altre parole, è necessario ridurre al minimo il numero di tweet autentici contrassegnati per errore. Il tuo tasso di falsi positivi se è solo dello 0,1%, per la revisione manuale stai erroneamente segnalando 10 tweet il secondo, o più di 800.000 al giorno. È questo precisamente il motivo per cui la maggior parte dei tradizionali metodi basati esclusivamente sull’intelligenza artificiale sono proibitivi per il controllo della disinformazione».
Anshumali Shrivastava ha detto che Twitter non rivela i suoi metodi per filtrare i tweet, ma si ritiene che impieghi un filtro Bloom, una tecnica a bassa memoria inventata nel 1970 per verificare se uno specifico elemento di dati, come una porzione di codice del computer, fa parte di un insieme noto di elementi, come un database di virus informatici conosciuti. Il filtro Bloom è garantito per trovare tutto il codice che corrisponde al database, ma registra anche alcuni falsi positivi.
Anshumali Shrivastava ha detto:
«Diciamo che hai identificato un pezzo di disinformazione e vuoi assicurarti che non venga diffuso nei tweet. Il filtro Bloom ti consente di controllare i tweet molto rapidamente, in un milionesimo di secondo o meno, se dice che un tweet è pulito, che non corrisponde a nulla nel tuo database di disinformazione, è garantito al 100%, quindi non c’è alcuna possibilità di accettare un tweet con disinformazione nota, ma il filtro Bloom segnalerà i tweet innocui per una parte del tempo».
I ricercatori negli ultimi tre anni hanno offerto vari schemi per l’utilizzo dell’apprendimento automatico per aumentare i filtri Bloom e migliorare la loro efficienza. Il software di riconoscimento della lingua può essere addestrato per riconoscere e approvare la maggior parte dei tweet, riducendo il volume che deve essere elaborato con il filtro Bloom. L’uso di classificatori di machine learning può ridurre l’overhead computazionale necessario per filtrare i dati, consentendo alle aziende di elaborare più informazioni in minor tempo con le stesse risorse.
Zhenwei Dai ha detto:
«Oggi le persone quando usano modelli di machine learning, sprecano molte informazioni utili che provengono dal modello di machine learning. Il tipico metodo consiste nell’impostare una soglia di tolleranza e inviare tutto ciò che scende al di sotto di tale soglia al filtro Bloom, se la soglia di affidabilità è dell’85%, significa che le informazioni che il classificatore considera sicure con un livello di confidenza dell’80% ricevono lo stesso livello di controllo delle informazioni di cui è sicuro solo al 10%; anche se non possiamo fare affidamento completamente sul classificatore di apprendimento automatico, ci fornisce comunque informazioni preziose che possono ridurre la quantità di risorse del filtro Bloom. Abbiamo applicato queste risorse in modo probabilistico. Diamo più risorse quando il classificatore è solo sicuro del 10% rispetto a un po’ meno quando è sicuro del 20% e così via. Prendiamo l’intero spettro del classificatore e lo risolviamo con l’intero spettro di risorse che possono essere allocate dal filtro Bloom».
Anshumali Shrivastava in conclusione, ha affermato:
«La ridotta necessità di memoria di Ada-BF si traduce direttamente in tempo reale in una maggiore capacità di sistemi di filtraggio. Abbiamo bisogno della metà dello spazio, quindi, in sostanza, possiamo gestire il doppio delle informazioni con la stessa risorsa».

Avatar photo

About Pino Silvestri

Pino Silvestri, blogger per diletto, fondatore, autore di Virtualblognews, presente su Facebook e Twitter.
View all posts by Pino Silvestri →