Google ha lanciato un nuovo motore di ricerca per aiutare scienziati e giornalisti a trovare i set di dati di cui hanno bisogno

Lo scopo di Google è sempre stato quello di organizzare l’informazione mondiale, il suo primo obiettivo è stato il web commerciale. Ora, vuole fare lo stesso per la comunità scientifica con un nuovo motore di ricerca per i set di dati.
Il servizio, chiamato Dataset Search, sarà una sorta di compagno di Google Scholar, il popolare motore di ricerca per gli studi e i rapporti accademici. Le istituzioni che pubblicano i loro dati online, come le università e i governi, nelle loro pagine web dovranno includere tag di metadati che descrivono i loro documenti, incluso chi li ha creati, quando sono stati pubblicati, come sono stati raccolti, e così via. Tali informazioni saranno quindi indicizzate da Dataset Search e combinate con gli input del Knowledge Graph di Google (questo è il nome di quelle caselle che compaiono per le ricerche più comuni, quindi, se il set di dati X è stato pubblicato dal CERN, alcune informazioni sull’istituto saranno incluse nei risultati).
Natasha Noy, ricercatrice di Google AI, ha contribuito a creare Dataset Search, parlando a The Verge, ha detto:
«L’obiettivo è di unificare le decine di migliaia di dati online di diversi archivi per i set di dati, vogliamo che possano essere scoperti, ma mantenerli dove si trovano. La pubblicazione del set di dati al momento è frammentata. Settori scientifici diversi hanno i propri archivi preferiti, così come alcuni governi e autorità locali.
Gli scienziati dicono:
“So, dove devo andare per trovare i miei set di dati, ma non è quello che ho sempre desiderato“. La ricerca diventa più difficile quando escono dalla loro comunità. Cito l’esempio di una scienziata del clima con cui recentemente ho parlato, mi ha detto che per uno studio imminente aveva cercato un set di dati specifici sulle temperature dell’oceano, ma non era riuscita a trovarlo da nessuna parte. Non l’ha rintracciato finché non ha incontrato una collega a una conferenza, ha riconosciuto il set di dati e le ha detto, dove era stato conservato. Solo allora ha potuto continuare il suo lavoro. Il set di dati era ben scritto e conservato in un luogo abbastanza evidente, ma era ancora difficile da trovare.
Il lancio iniziale di Dataset Search riguarderà le scienze ambientali e sociali, i dati governativi e i set di dati di organizzazioni giornalistiche come ProPublica. Tuttavia, se il servizio diventerà popolare, la quantità di dati indicizzati dovrebbe rapidamente diventare una valanga di dati mentre le istituzioni e gli scienziati s’impegneranno a rendere accessibili le loro informazioni. Ciò dovrebbe essere agevolato dal recente fiorire d’iniziative di open data in tutto il mondo, negli ultimi anni il numero di dati aperti è aumentato. Attribuisco questo merito alla crescente importanza dei dati nella letteratura scientifica, il che significa che le riviste chiedono agli autori di pubblicare set di dati, così come le normative governative negli Stati Uniti e in Europa e l’aumento generale del movimento dei dati aperti».
Jeni Tennison, CEO dell’Open Data Institute (ODI), ha detto:
«Il coinvolgimento di Google dovrebbe contribuire al successo di questo progetto. La ricerca dei set di dati è sempre stata difficile da supportare, spero che l’intervento di Google renderà tutto più facile: per creare un decente motore di ricerca, è necessario sapere come costruire sistemi di facile utilizzo anche per chi non è esperto e capire cosa vogliono le persone quando digitano alcune frasi. Google sa cosa sta realizzando per soddisfare queste esigenze.
Google idealmente pubblicherà il proprio set di dati su com’è utilizzata la ricerca. Sebbene i tag di metadati che sta utilizzando per renderli visibili ai suoi crawler di ricerca siano uno standard aperto (il che significa che qualsiasi concorrente, come Bing o Yandex, può usarli per costruire il proprio servizio concorrente), i motori di ricerca migliorano rapidamente quando l’apporto di una moltitudine di utenti è lì per fornire dati su ciò che stanno facendo.
E’ importante capire come le persone fanno le ricerche, che tipo di termini usano, come li esprimono. Se vogliamo capire come le persone cercano i dati e renderli più accessibili, sarebbe bello se Google aprisse i propri dati su questo tema».
In altre parole: Google dovrebbe pubblicare un set di dati sulla ricerca di set di dati che sarà indicizzato da Dataset Search. Che cosa potrebbe essere più appropriato?

Pino Silvestri

About Pino Silvestri

Pino Silvestri, blogger per diletto, fondatore, autore di Virtualblognews, presente su Facebook e Twitter.
View all posts by Pino Silvestri →