Dodici biblioteche, un unico catalogo connesso alla Linked Open Data cloud

Il CoBiS è una rete informale di 65 biblioteche specialistiche dell’area torinese il cui profilo è eterogeneo per diversi aspetti: materiale posseduto, sistemi di catalogazione, modelli di rappresentazione del dominio e OPAC.

Il progetto Linked Open Data (LOD) del CoBiS ha lo scopo di fornire un unico punto di accesso alle collezioni delle biblioteche aderenti al progetto: Deputazione Subalpina di Storia Patria, Associazione Archivio Storico Olivetti, INAF Istituto Nazionale di Astrofisica, INRIM Istituto Nazionale di Ricerca Metrologica, Biblioteca Nazionale del Club Alpino Italiano, Accademia delle Scienze di Torino, Fondazione Giorgio Amendola, Biblioteca civica musicale Andrea Della Corte, Accademia di Medicina, Istituto per i Beni Musicali in Piemonte, Istituto di studi storici Gaetano Salvemini, Centro internazionale di studi Primo Levi..

L'architettura del progetto

Il progetto utilizza i Linked Data per due scopi principali:

  • integrare i cataloghi eterogenei delle 12 biblioteche (generati a partire da 5 software gestionali diversi);
  • arricchire il catalogo con informazioni aggiuntive sugli autori, provenienti da fonti esterne connesse alla Linked Open Data cloud.

I dati sono estratti dai database locali delle biblioteche, mappati sulle ontologie di riferimento e convertiti in un grafo RDF che si aggiorna periodicamente.  Qui, grazie a un insieme di procedure di entity matching, annotiamo gli interlink tra le entità del CoBiS e quelle presenti in fonti esterne: i dati vengono arricchiti e collegati alla Linked Open Data cloud.

Infine il catalogo aumentato è pubblicato tramite un endpoint SPARQL che a sua volta alimenta un sito web. In quest’ultima fase abbiamo sviluppato dei tools per ottimizzare le query SPARQL federate, con l’ottica di migliorare l’analisi e la visualizzazione dei dati.

Data integration e data enrichment

I dati bibliografici sono convertiti dai formati utilizzati nei cataloghi locali (MARC, UNIMARC, Dublin Core, CSV custom) in triple RDF modellate secondo le ontologie BIBFRAME 2.0 e schema.org. Il processo di triplificazione si avvale di due principali software open source:

  • TARQL, converte i dati dal formato CSV a RDF, utilizzando per la mappatura la stessa sintassi SPARQL;
  • JARQL, software che abbiamo realizzato durante la fase-pilota del progetto. JARQL consente di prendere come input dati strutturati in forma di albero (come XML e JSON), i più frequenti tra le fonti dati del CoBiS.

La pipeline automatica di triplificazione è concepita in modo tale da essere facilmente replicabile, aggiornabile e apribile a nuovi partners. Praticamente, qualsiasi catalogo che può essere esportato in MARC, UNIMARC o OAI-PMH Dublin Core, o è pubblicato nell’OPAC di SBN, può partecipare al progetto in un modo abbastanza semplice.

Il grafo RDF del CoBiS rappresenta ora un unico punto di accesso ai cataloghi delle biblioteche aderenti al progetto. Le tecnologie Linked Data ci hanno consentito di lavorare su un unico authority file all’interno del quale è stato avviato un processo di allineamento tra le diverse entità di autori presenti nei database di partenza. Grazie ai Linked Open Data esposti da Wikidata e VIAF le voci degli autori integrano ora nuove informazioni provenienti da fonti esterne disponibili online; per stabilire gli interlink che consentono questo flusso di dati abbiamo usato processi automatici di entity matching e abbiamo configurato OLAF, la nostra piattaforma di crowd-sourcing.

La pagina di Galileo

Il Portale

Il Portale del progetto LOD del CoBiS implementa le best practices della comunità Linked Open Data ed è accessibile secondo due modalità.

Un endpoint SPARQL pubblico e configurato per supportare le query federate consente ad altri progetti di istituire collegamenti machine-to-machine e aumentare così l’interoperabilità semantica tra sistemi diversi.

Lo stesso endpoint alimenta direttamente il sito web i cui contenuti sono generati da query SPARQL live. In questo modo i Linked Open Data, opportunamente organizzati, possono essere consultati da tutti gli utenti.

Nelle pagine degli autori, per esempio, il nome dell’autore stesso proviene dall’authority file LOD del CoBiS, la didascalia da Wikipedia, la biografia da SBN o, in alternativa, da Wikipedia, i metadati biografici da Wikidata e l’immagine da Wikidata o Wikipedia; il bottone “dati RDF” mostra la porzione di grafo che sottende la creazione della pagina. A metà della pagina è presente la lista delle risorse interconnesse, che rimanda alla consultazione di differenti repositories biografici e bibliografici (VIAF, Library of Congress, Deutsche National Bibliothek GND, Istituto Treccani ecc.). In fondo alla pagina c’è la lista dei libri dell’autore presenti nel database del CoBiS. Cliccando sopra i box, si viene rimandati all’informazione bibliografica e a chi possiede il libro. Le tre sezioni principali del sito (autori, opere e anagrafiche delle biblioteche) utilizzano lo stesso sistema di gestione dei contenuti.

Data visualization e query federate

In una sezione del sito web, dove sono visualizzati (tramite mappe e grafici) i risultati di query SPARQL federate, abbiamo voluto dimostrare il livello di interoperabilità semantica offerta dai Linked Open Data.

Le query SPARQL federate esprimono al massimo le potenzialità delle tecnologie Linked Open Data: compilando un’unica query (quindi usando un’unica sintassi di interrogazione) è possibile recuperare estemporaneamente informazioni provenienti da database diversi.

Utilizzando balrog, un software open source che ottimizza la federazione delle query, e sfruttando i circa 12mila interlink individuati tra l’authority file del CoBiS, VIAF e Wikidata abbiamo condotto delle analisi relative al contesto culturale al quale appartengono (o sono appartenuti) gli autori dei libri conservati dalle biblioteche aderenti al progetto. Grazie ai Linked Open Data diventa possibile espandere il contenuto informativo dei cataloghi e offrire agli utenti nuove modalità di accesso alle risorse.