Le potenzialità del web semantico e dei suoi linguaggi. Intervista a Francesca Tomasi
Il Web 3.0 o anche Web Semantico, da anni al centro di un dibattito che ha avuto per protagonisti storiche figure di Internet da Tim Berners-Lee a Reed Hastings sino a Jerry Yang, consiste in un’estensione del web, che implica un nuovo modo di concepirne i documenti e in cui computer e utenti lavorano in cooperazione: sono infatti associati a informazioni e metadati che ne specificano il contesto semantico favorendone un’elaborazione automatica da parte della macchina.
Ne parliamo con Francesca Tomasi, Docente in Informatica Umanistica dell’Università di Bologna e docente alla Summer School “Archivi della moda: heritage management” in partenza a giugno.
COSA SI INTENDE PER WEB SEMANTICO
Ha appena avviato la laurea magistrale in “Digital Humanities and Digital Knowledge” presso l’Università di Bologna che mira a promuovere e sviluppare connessioni tra le scienze umane e le scienze della rappresentazione e dell’elaborazione di informazione e conoscenza.
Il web semantico è il cuore di questo incontro. Ci può raccontare cosa si intende con questo termine?
Il percorso di ideazione della laurea magistrale internazionale in DHDK è stata una bella prova per riflettere sulle nuove identità del Web. In particolare sulle opportunità che il Web 3.0, anche detto Web semantico, porterà in termini di valorizzazione del sapere digitale. Ed è esattamente la semantica il tema che il nuovo Web ha riconosciuto come punto di forza. Vale a dire la rappresentazione e l’organizzazione della conoscenza. Quello che si chiede al Web non è più solo il reperimento di contenuti sotto forma di pagine, ma è la capacità di consentire al lettore di acquisire informazione strutturata, quindi interconnessa e relazionata, attraverso la navigazione. Il Web semantico è quindi un insieme di tecnologie, strumenti e modelli finalizzati insieme a favorire il ragionamento automatico da parte della macchina, con lo scopo di esaudire al massimo i bisogni informativi di utenti sempre più esigenti e con poco tempo a disposizione.
LE OPPORTUNITA’ DELL’OPEN DATA
Parlando di catalogazione, la condivisione dei dati e di metadati risulta fondamentale per il dialogo dei diversi software. Quali sono le opportunità offerte dall’open data oggi?
Diciamo che gli open data vorrebbero abbattere le barriere imposte dall’uso di software che legano i dati agli applicativi che li hanno generati, limitando uso e riuso dei dati stessi. I dati aperti sono inter-operabili, consentono alle collezioni di dialogare, permettono una fruizione senza steccati. Se però i formati aperti garantiscono l’interscambio a livello sintattico, la molteplicità di standard di catalogazione per tipologie di risorse culturali richiede un ulteriore livello di riflessione, che i soli dati aperti non possono garantire. Vale a dire il livello appunto della semantica.
LE SCHEDE CATALOGO
L’Istituto Centrale per il Catalogo e la Documentazione ha pubblicato schede di catalogo distinte a seconda della tipologia del bene oggetto del catalogo. Tali schede sono assai complesse e ciascuno finisce con l’adattarle al suo caso e ai propri tempi di schedatura.
Secondo lei dovrebbe essere imposto da parte del Mibact (Ministero dei beni e delle attività culturali e del turismo) che software di catalogazione diversi debbano presentare metadati comuni da compilare obbligatoriamente al fine di avere catalogazioni standardizza te e quindi, in via ipotetica, comunicanti in vista di un futuro riversamento in un unico database?
Il software in sé non è un limite. Il problema principale sono i descrittori diversi per diverse tipologie di oggetti culturali. E credo che ogni artefatto richieda descrittori ad hoc per tipologia, scopo e funzione tanto della risorsa quanto del progetto che si intende avviare. Sicuramente adottare però descrittori minimi condivisi agevola il dialogo. Il caso del Dublin Core è esemplare in questo senso: 15 categorie comuni a qualunque risorsa che devono essere sempre presenti per permettere alle collezioni di scambiare contenuti in modo consapevole. Poi credo si debba lavorare molto sul mapping, cioè sulle corrispondenze fra metadati usati in progetti diversi. Più c’è allineamento terminologico, più il dialogo, e quindi lo scambio e l’interconnessione, sono possibili.
L’INTERLINKING FRA COLLEZIONI
Le aziende di moda spesso custodiscono gelosamente i propri archivi (quando li possiedono) e le relative piattaforme digitali, accessibili solo agli interni.
Secondo lei, invece, quali sono i punti di forza della condivisione dei dati? Perché un’azienda dovrebbe condividere almeno in parte il suo patrimonio archivistico?
Credo sarebbe fondamentale che le aziende aprissero i propri dati, non solo per divulgare le proprie collezioni e rendere il pubblico consapevole del posseduto, ma anche per valorizzare ulteriormente quanto si possiede attraverso sistemi di interlinking fra collezioni. I Linked Open Data (LOD) non sono infatti solo dati aperti, ma dati capaci di dialogare attraverso sistemi di collegamenti semantici. Usare i LOD significa facilitare collegamenti fra collezioni che hanno elementi in comune, o per una qualche ragione relazionati, e quindi anche arricchire le proprie collezioni con dati acquisiti da altre collezioni. E’ un arricchimento per tutti insomma: per la collezione che trae giovamento dalle connessioni e per l’utente finale che può così aumentare la sua esperienza informativa.
SOTWARE NATIVI E OPEN SOURCE
Molti sono i software di catalogazione, tra i nativi e gli open source, e molte volte le aziende scelgono i primi.
Cosa pensa a riguardo di questa scelta e quale consiglio si sente di dare alle aziende che stanno valutando quale software acquistare?
Capisco bene il motivo di questa scelta. Un software open source è difficile da gestire e ancor più da personalizzare in assenza di personale tecnico in grado di manipolare l’applicativo. Quello che consiglio quindi non è tanto uno specifico sofware, ma è di avere la garanzia che il software scelto segua le specifiche del Web semantico, si basi quindi su ontologie per la rappresentazione del sapere trasmesso dai dati e garantisca l’esportazione dei dati stessi in formati standard e aperti, che consentano quindi l’uso e il riuso da parte di altri progetti.
ARCHIVI DELLA MODA DEL NOVECENTO E EUROPEANA
Il Mibact ha lanciato due progetti: Archivi della Moda del Novecento ed Europeana. Il primo, presentato nel 2009, è un portale che rende fruibili i risultati dell’inserimento a sistema di schede di catalogo di materiali eterogenei legati al mondo della moda. Il secondo, attivo dal 2008, è una biblioteca digitale europea che raccoglie contributi precedentemente digitalizzati da diverse istituzioni.
Secondo lei questi portali presentano delle criticità? E se sì quali?
Si tratta di due importanti progetti. Gli Archivi della Moda mentre rendono fruibili le descrizioni delle risorse possedute dai partner aderenti, mettono a disposizione strumenti interessanti, fra cui un lemmario, che potrebbe essere un sistema di controllo del vocabolario da condividere fra progetti diversi. Una delle principali criticità è la ricerca, in particolare quella avanzata, che, oltre a non avere un ruolo specifico a livello di design dell’interfaccia, non orienta l’utente nell’accesso attraverso strumenti che lo rendano consapevole di come effettuare la ricerca stessa, e non restituisce risultati organizzati attraverso cluster tematici.
Europeana è un aggregatore di metadati di oggetti del patrimonio, originariamente descritti dalle istituzioni culturali aderenti, ad oggi disponibile anche in LOD. L’apparente criticità di Europeana è la debolezza degli elementi della descrizione (solo una decina di categorie fra le 15 del Dublin Core), ma è giustificata dalla necessità di avere una comune piattaforma per l’accesso ad oggetti molto eterogenei per tipologia, supporto e formato.
Una criticità generale dei progetti che vogliono aggregare è la difficoltà ad avere un quadro chiaro di chi ha aderito al progetto e soprattutto con quali collezioni o fondi, e questo può compromettere la qualità dei risultati dell’interrogazione. Se non so esattamente cosa contiene un portale non so se quanto non ho trovato non esiste o semplicemente non è stato catalogato o inserito nella collezione finale.