Sviluppato un modello per l’estrazione automatica di contenuti da web e app

I sistemi di gestione dei contenuti o CMS sono lo strumento più diffuso per la creazione di contenuti su Internet, negli ultimi anni si sono evoluti fino a diventare la spina dorsale di un ecosistema sempre più complesso di siti Web, app mobili e piattaforme.
Il team di ricercatori dell’Internet Interdisciplinary Institute (IN3) dell’Universitat Oberta de Catalunya (UOC), al fine di semplificare i processi, ha sviluppato un modello open source per automatizzare l’estrazione di contenuti dai CMS.
Il modello open-source è un prototipo scientifico pienamente funzionale che permette di estrarre la struttura dati e le librerie di ogni CMS e creare un software che funge da intermediario tra il contenuto e il cosiddetto front-end, è l’area accessibile agli utenti. Bisogna vestire i panni dell’utente per capire cos’è esattamente il front end: quando visitiamo un sito web o apriamo un’applicazione, prende la forma dell’interfaccia grafica visualizzata dall’utente, questo è composto da tutto il contenuto che si apre davanti a noi: le immagini, il testo, ma anche l’intero design della pagina o del software, dal colore al carattere fino al posizionamento dei singoli elementi. Il front end permette l’interazione tra l’utente e il programma.
L’intero processo viene eseguito automaticamente, rendendola una soluzione scalabile e priva di errori, poiché può essere ripetuta più volte senza aumentarne il costo.

L’importanza dei CMS nel mondo online
I sistemi di gestione dei contenuti (CMS) sono alla base di oltre il 60% delle pagine attualmente disponibili online. Sistemi come WordPress, Joomla e Drupal sono diventati popolari principalmente perché forniscono un’esperienza utente semplice, che ha consentito a tutti i tipi di utenti non tecnici di entrare a far parte della catena di creazione di contenuti online.
Joan Giner Miguélez, studente del programma di dottorato in Network and Information Technologies con il gruppo Systems, Software and Models Research Lab (SOM Research Lab), autore principale dello studio che delinea il nuovo modello, pubblicato nella rivista Springer, ha detto:
«Negli ultimi quattro o cinque anni, questi sistemi hanno fornito informazioni non solo ai browser, ma anche alle app mobili. I CMS dispongono di interfacce di programmazione delle applicazioni (API), con le quali le app mobili comunicano per estrarre contenuti, questi sistemi, noti come headless CMS (letteralmente CMS senza testa, vale a dire senza front-end), consentono ai contenuti, creati in modo semplice, di essere consumati in un secondo momento su piattaforme diverse».
In sostanza un CMS senza testa definisce quei sistema di gestione dei contenuti (CMS) che dispongono di funzionalità mirate alla redazione e gestione di dati (contenuti) senza avere le funzionalità di presentazione di questi. I contenuti (dati) vengono esposti tramite servizi web (web services) ad uso e consumo di altri sistemi. In poche parole, un CMS headless non fa altro che gestire i contenuti.
I CMS sono quindi diventati un grande contenitore di contenuti e dati utilizzati da ogni applicazione o piattaforma. Ciò ha semplificato molti processi ma ha anche aggiunto complessità in termini di sviluppo particolarmente evidenti per le organizzazioni che gestiscono un volume elevato di contenuti e piattaforme. È sempre più comune che la creazione di una nuova app mobile comporti un lavoro di sviluppo complesso e questi compiti sono semplificati dal modello disegnato dai ricercatori dell’Internet Interdisciplinary Institute (IN3).
Joan Giner Miguélez ha aggiunto:
«Immaginate una grande azienda di contenuti che gestisce oltre mille siti Web e app e vuole creare una nuova app mobile che mostri i prodotti di ciascuno di quei siti Web. Se vogliono sviluppare i connettori tra ciascun sito Web e l’applicazione, il lavoro sarebbe immenso e ad alta intensità di risorse».
Le API se sono già in un formato standard, non è scalabile, per questo i ricercatori hanno pensato di creare un estrattore di contenuto che legga e comprenda le API, le rappresenti in modo standard e generi il connettore per inviare automaticamente le informazioni alla nuova app mobile.

Automatizzare l’estrazione di contenuti dai CMS
Il modello sviluppato da Joan Giner Miguélez insieme ai suoi partner di ricerca Abel Gómez e Jordi Cabot, ricercatore ICREA e leader del SOM Research Lab, semplifica notevolmente il processo di sviluppo di una nuova applicazione e, a sua volta, si traduce in un notevole risparmio in termini di tempo e risorse. Il processo, sviluppato grazie ai finanziamenti dei progetti europei AIDOaRT e TRANSACT, ha l’obiettivo di estrarre e rappresentare il modello CMS in modo chiaro e automatico per facilitarne l’utilizzo come fonte di informazioni. Inoltre, la proposta tecnologica dei ricercatori dell’Internet Interdisciplinary Institute (IN3) mira a generare il codice che fungerà da collegamento tra il CMS e lo sviluppo di nuove applicazioni.
Il primo passo per raggiungere questo obiettivo, è fornire allo strumento l’indirizzo e le informazioni di accesso per il CMS, una volta effettuato l’accesso, legge l’API, la comprende e utilizza un processo di “reverse engineering” per rappresentare la struttura e le librerie di contenuti del CMS in modo standard. Sulla base di ciò, genera automaticamente il codice del connettore attraverso il quale comunicheranno il CMS e la nuova app mobile in fase di sviluppo.
Joan Giner Miguélez ha sottolineato:
«È un modo per standardizzare il processo tra il CMS e l’applicazione finale, il suo più grande vantaggio, infatti, è proprio la standardizzazione. Si tratta di un processo che si ripete frequentemente nelle organizzazioni che gestiscono i contenuti; un processo che, ogni volta che viene eseguito, prevede la creazione di un team di sviluppo specifico che richiede spese per una serie di risorse e che, inoltre, possono generare errori. Attraverso l’automazione, tutto viene semplificato e diventa più scalabile».
Pertanto, questo modello per automatizzare le estrazioni CMS si concentra sulla scalabilità, una volta creato lo schema e il codice del CMS, questo può essere riutilizzato tutte le volte necessarie e integrato in progetti di sviluppo futuri senza costi aggiuntivi.
I ricercatori sottolineano inoltre che si tratta di un modello automatico che crea librerie di contenuti privi di errori, mentre, se il lavoro viene svolto manualmente, gli sviluppatori possono sempre commettere un errore in una riga di codice.
Joan Giner Miguélez in conclusione ha detto:
«I sistemi di gestione dei contenuti sono una delle principali fonti di contenuto su Internet. Stiamo rendendo possibile standardizzare l’accesso ai CMS, proprio come l’accesso ai database era standardizzato in passato. Andando avanti, questo modello potrebbe anche essere utilizzato per trasformare i CMS in una nuova fonte di dati per addestrare i sistemi di intelligenza artificiale».

, ,
Avatar photo

About Pino Silvestri

Pino Silvestri, blogger per diletto, fondatore, autore di Virtualblognews, presente su Facebook e Twitter.
View all posts by Pino Silvestri →