Siete curiosi di scoprire che risultati si possono ottenere utilizzando metodologie informatiche per esaminare i dati della ricerca umanistica?
Venerdì 15 Novembre alle 10.00 a Torino, presso Rinascimenti Sociali, vi invitiamo all’evento di restituzione del progetto REPOSUM, condotto dal gruppo di ricerca DR2 dell’Università di Torino insieme al nostro referente del progetto Giulio Carducci e finanziato dalla Fondazione CRT.
La presentazione sarà seguita da una tavola rotonda durante la quale condividere idee e riflessioni sul tema, dopo brevi interventi di esperti del settore che racconteranno la loro esperienza.
Qual è lo scopo del progetto e quali sono le attività svolte? Vi anticipiamo una breve descrizione delle metodologie adottate e dei dati a cui si è lavorato.
Obiettivi del progetto e attività di ricerca
Il progetto REPOSUM nasce per rafforzare l’ecosistema piemontese delle tecnologie semantiche in relazione al percorso intrapreso dall’Università di Torino verso l’istituzione di un centro di Digital Humanities.
Da qui l’esigenza di sviluppare strumenti per per l’automatizzazione, l’estrazione e l’analisi di produzioni scientifiche, tendenze culturali e reti intellettuali.
Nello specifico, le attività di ricerca si sono focalizzate sulla raccolta e analisi dei dati (catalogazione, annotazione e analisi dei dati con tecniche statistiche e machine learning) delle tesi di dottorato di filosofia, oggetto di studio del gruppo di ricerca DR2 (Dipartimento di filosofia e scienze dell’educazione).
Corpora di riferimento
I corpora, collezioni di testi oggetto di studio, relativi alle tesi di dottorato sono due: uno per le tesi inglesi e uno per le tesi statunitensi discusse dal 1900 ad oggi.
Il primo è più complesso perché, a differenza di quello relativo alle tesi statunitensi, non contiene solamente tesi di filosofia ed è ulteriormente suddiviso in due set di dati: uno con gli abstract e uno senza.
I corpora contengono metadati e i più utilizzati per le nostre analisi, oltre a titolo e abstract, sono quelli relativi all’autore, argomento, università/istituzione, anno di pubblicazione e relatore.
Raccolta e analisi dei dati
Utilizzando i metadati dei corpora sono state effettuate analisi di Topic Modeling, Entity Recognition e Named Entity Recognition, Classificazione e Rappresentazione semantica dei documenti.
Esploriamoli insieme…
Topic Modeling
Si tratta di una specifica analisi statistica per l’individuazione di argomenti astratti all’interno di una collezione di documenti, con lo scopo di scoprirne la struttura semantica.
Nel nostro caso, è stata studiata l’occorrenza delle parole nei testi delle tesi per individuare le parole che con maggiore frequenza vengono usate insieme o in contesti simili.
Questo metodo statistico basato sulla co-occorrenza delle parole risulta efficace nella caratterizzazione degli argomenti maggiormente ricorrenti, soprattutto se condotto su un gran numero di testi.
Entity Recognition, Named Entity Recognition ed Entity Linking
Si tratta di applicazioni del campo di studio dell’Information Extraction, che prevede l’estrazione di informazioni da gruppi di documenti, nel nostro testo.
Queste tre applicazioni ruotano intorno alle entità, concetti reali o astratti menzionati nel testo, come persone, luoghi e organizzazioni.
L’Entity Recognition (ER) consiste nell’individuare all’interno del testo questi riferimenti, Named Entity Recognition (NER) permette di determinare le tipogie di queste entità, ad esempio persone.
Invece, l’Entity Linking consiste nel collegare queste entità ad una base di conoscenza esterna, come Wikidata o DBpedia, per risolvere possibili casi di ambiguità.
Un particolare tipo di strumento per l’entity linking è TellMeFirst (TMF), software proprietario di Synapta.
TellMeFirst è un classificatore di testo e motore di ricerca semantico che sfrutta il contenuto delle pagine di Wikipedia per individuare all’interno di una frase un numero arbitrario di concetti principali, come persone, luoghi, opere d’arte, espressi come entità Wikidata.
Si tratta di un motore di ricerca testuale che cerca un breve testo all’interno di un database, costruito a partire dal contenuto dell’intero corpus di Wikipedia, e restituisce i titoli degli articoli più vicini semanticamente al nostro testo inserito.
Classificazione
Visto il contenuto eterogeneo del corpus inglese e vista l’assenza di annotazioni sul campo di studio, primaria esigenza per il gruppo DR2 era sapere quali e quante fossero le tesi di filosofia del corpus.
Per la classificazione è stata utilizzata una tecnica di machine learning che, a partire da documenti dichiaratamente di contenuto filosofico, ne ha appreso la struttura e le caratteristiche distintive che ha poi utilizzato per individuare le tesi filosofiche all’interno del nostro corpus.
Rappresentazione semantica dei documenti
A partire dalle entità estratte dai testi con TellMeFirst, concetti chiave di cui si parla nelle tesi, si è pensato di collegarle alle corrispettive entità su Wikidata e di rappresentarle in un grafo.
Per incrementare i collegamenti delle tesi, sono state selezionate tutte le proprietà relative alle entità di filosofi o inerenti all’ambito filosofico e sono state aggiunte al grafo.
In questo modo, individuando che tipo di relazione collega due tesi (es. argomento, data, luogo), è possibile cercare tesi affini in base alle caratteristiche semantiche che hanno in comune.
Queste appena esposte sono le tecniche che si sono rivelate maggiormente utili per l’attività di ricerca; hanno prodotto risultati significativi ai fini dell’analisi dei corpora, di cui si parlerà all’evento di restituzione, e hanno permesso di comprendere il valore aggiunto che l’adozione di tecnologie semantiche apporta ai risultati della ricerca umanistica.
Se vuoi scoprire di più sul lavoro svolto e sui risultati ottenuti ti aspettiamo venerdì presso Rinascimenti Sociali per discuterne insieme.
Per aggiornamenti, continua a seguire il nostro blog o contattaci.
Sul Blog del gruppo di ricerca DR2 sono disponibili le slide presentate all’evento.