Sei biblioteche, un unico catalogo connesso alla Linked Open Data cloud

Il CoBiS è una rete informale di 65 biblioteche specialistiche dell’area torinese il cui profilo è eterogeneo per diversi aspetti: materiale posseduto, sistemi di catalogazione, modelli di rappresentazione del dominio e OPAC.

Il progetto Linked Open Data (LOD) del CoBiS ha lo scopo di fornire un unico punto di accesso alle collezioni delle sei biblioteche aderenti al progetto-pilota: Deputazione Subalpina di Storia Patria, Associazione Archivio Storico Olivetti, INAF Istituto Nazionale di Astrofisica, INRIM Istituto Nazionale di Ricerca Metrologica, Biblioteca Nazionale del Club Alpino Italiano e Accademia delle Scienze di Torino.

L'architettura del progetto

Abbiamo strutturato il progetto in tre fasi principali.

I dati sono estratti dai database locali delle biblioteche, mappati sulle ontologie di riferimento e convertiti in un grafo RDF che si aggiorna periodicamente.  Qui, grazie a un insieme di procedure di entity matching, annotiamo gli interlink tra le entità del CoBiS e quelle presenti in fonti esterne: i dati vengono arricchiti e collegati alla Linked Open Data cloud.

Infine il catalogo aumentato è pubblicato tramite un endpoint SPARQL che a sua volta alimenta un sito web. In quest’ultima fase abbiamo sviluppato dei tools per ottimizzare le query SPARQL federate, con l’ottica di migliorare l’analisi e la visualizzazione dei dati.

Data integration e data enrichment

I dati bibliografici sono convertiti dai formati utilizzati nei cataloghi locali (MARC, UNIMARC, Dublin Core, CSV custom) in triple RDF modellate secondo le ontologie BIBFRAME, schema.org e Culturalis. Questo processo di triplificazione si avvale di due principali strumenti: per processare i dati codificati in MARC 21 abbiamo usato marc2bibframe, il tool sviluppato dalla Library of Congress; per gli altri formati abbiamo sviluppato JARQL, un software open source che adotta la sintassi SPARQL per convertire i dati dal formato JSON in triple RDF.

La pipeline automatica di triplificazione è concepita in modo tale da essere facilmente replicabile, aggiornabile e apribile a nuovi partners. Praticamente, qualsiasi catalogo che può essere esportato in MARC, UNIMARC o OAI-PMH Dublin Core, o è pubblicato nell’OPAC di SBN, può partecipare al progetto in un modo abbastanza semplice.

Il grafo RDF del CoBiS rappresenta ora in un unico formato tutti i dati bibliografici forniti dalle biblioteche aderenti al progetto. Le tecnologie Linked Data ci hanno consentito di lavorare su un unico authority file all’interno del quale è stato avviato un processo di allineamento tra le diverse entità di autori presenti nei database di partenza. Grazie ai Linked Open Data esposti da Wikidata e VIAF le voci degli autori integrano ora nuove informazioni provenienti da fonti esterne disponibili online; per stabilire gli interlink che consentono questo flusso di dati abbiamo usato processi automatici di entity matching e abbiamo configurato OLAF, la nostra piattaforma di crowd-sourcing.

La pagina di Galileo

Il Portale

Il Portale del progetto LOD del CoBiS implementa le best practices della comunità Linked Open Data ed è accessibile secondo due modalità.

Un endpoint SPARQL pubblico e configurato per supportare le query federate consente ad altri progetti di istituire collegamenti machine-to-machine e aumentare così l’interoperabilità semantica tra sistemi diversi.

Lo stesso endpoint alimenta direttamente il sito web i cui contenuti sono generati da query SPARQL live. In questo modo i Linked Open Data, opportunamente organizzati, possono essere consultati da tutti gli utenti.

Nelle pagine degli autori, per esempio, il nome dell’autore stesso proviene dall’authority file LOD del CoBiS, la didascalia da Wikipedia, la biografia da SBN o, in alternativa, da Wikipedia, i metadati biografici da Wikidata e l’immagine da Wikidata o Wikipedia; il bottone “dati RDF” mostra la porzione di grafo che sottende la creazione della pagina. A metà della pagina è presente la lista delle risorse interconnesse, che rimanda alla consultazione di differenti repositories biografici e bibliografici (VIAF, Library of Congress, Deutsche National Bibliothek GND, Istituto Treccani ecc.). In fondo alla pagina c’è la lista dei libri dell’autore presenti nel database del CoBiS. Cliccando sopra i box, si viene rimandati all’informazione bibliografica e a chi possiede il libro. Le tre sezioni principali del sito (autori, opere e anagrafiche delle biblioteche) utilizzano lo stesso sistema di gestione dei contenuti.

Data visualization e query federate

In una sezione del sito web, dove sono visualizzati (tramite mappe e grafici) i risultati di query SPARQL federate, abbiamo voluto dimostrare il livello di interoperabilità semantica offerta dai Linked Open Data.

Le query SPARQL federate esprimono al massimo le potenzialità delle tecnologie Linked Open Data: compilando un’unica query (quindi usando un’unica sintassi di interrogazione) è possibile recuperare estemporaneamente informazioni provenienti da database diversi.

Utilizzando balrog, un software open source che ottimizza la federazione delle query, e sfruttando i circa 4mila interlink individuati tra l’authority file del CoBiS, VIAF e Wikidata abbiamo condotto delle analisi relative al contesto culturale al quale appartengono (o sono appartenuti) gli autori dei libri conservati dalle biblioteche aderenti al progetto. Grazie ai Linked Open Data, si possono fare ricerche su un catalogo aumentato integrando informazioni la cui semantica è molto ampia.

Il Progetto Linked Open Data del CoBiS è attualmente in corso; nel 2018 si lavorerà su un ulteriore allineamento dell’authority file, su un incremento degli interlink di autori e opere e, soprattutto, il catalogo si arricchirà dei dati bibliografici provenienti da nuove biblioteche aderenti al progetto.