![]() |
Organizzare e ricercare le fonti digitali: il progetto RepubLitFilippo
Chiocchetti F. Chiocchetti,
«Organizzare e ricercare le fonti digitali: il progetto RepubLit» |
|
1. Nel mondo globalizzato e reso
interconnesso dalla fitta trama delle reti telematiche, il ruolo esercitato
dalle fonti digitali nell’attività di ricerca è sempre
più rilevante. Il web, oggi,
è diventato il grande archivio da esplorare. Le ripercussioni sul lavoro
storiografico, in particolare l’esigenza di una nuova critica delle fonti
digitali, hanno alimentato una riflessione metodologica ricca di voci
significative. Con altrettanta evidenza, peraltro, si è manifestata la
necessità di disporre di mezzi tecnologici mediante i quali sfruttare
pienamente la grande quantità di documenti in formato
elettronico. 2. Progettare un tale strumento, pensato da ricercatori
per un’utenza di ricercatori, è senz’altro una sfida
affascinante. Creare le condizioni migliori per misurarsi con essa implica
probabilmente il ricorso a mezzi in parte diversi da quelli tipici di chi fa
ricerca accademica.
3. Da queste premesse è sorta RepubLit. Il nome della società
(pronunciato analogamente all’inglese ‘republic’) evoca la
creazione di un’unica comunità del sapere – versione moderna
della Respublica Litterarum –
nei cui confronti essa si propone come punto di riferimento nell’ambiente
telematico. 4. Nei primi mesi di vita di questa nuova
realtà, gli obiettivi prima enunciati sono stati tradotti in uno studio
di fattibilità di cui daremo conto in queste pagine.
L’attività di ricerca, che ha gettato le basi per le successive
fasi di sviluppo, è stata parzialmente finanziata grazie a un contributo
erogato dal Programma FIxO (Formazione e Innovazione per l’Occupazione)
del Ministero del Lavoro, che tra le sue linee di intervento includeva
“Azioni formative e di accompagnamento per l’avvio di spin-off
accademici”. Nell’ambito del Programma FIxO alcuni validi
collaboratori hanno messo a disposizione di RepubLit le loro competenze: Fulvio
Corno, professore associato di informatica presso il Politecnico di Torino e
studioso del semantic web; Luca
Rosati, esperto di architettura dell’informazione e docente
all’Università di Perugia; lo staff di Intellisemantic S.r.l., una start-up altamente innovativa guidata
da Alberto Ciaramella[2]. Inquadrato l’obiettivo finale – realizzare un
motore di ricerca umanistico, concepito espressamente per una utenza accademica,
e dotato di strumenti avanzati di interrogazione, selezione e filtro dei
documenti – il problema delle fonti e del loro trattamento è stato
posto come aspetto centrale della sperimentazione, attuata nel corso del
2009. 5. Per conferire
struttura a un testo occorre ottenere informazioni caratterizzanti su di esso.
È stata perciò studiata una procedura mediante la quale ricavare i
concetti-chiave di ciascun documento. Il progetto prevede che i lemmi
significativi, presenti nei documenti indicizzati dal motore di ricerca, vengano
organizzati in specifiche aree tematiche. Trattandosi di un motore verticale di
taglio umanistico, le aree individuate sono: Persone (studiosi, autori
letterari, personaggi storici); Argomenti (concetti periodizzanti, ambiti
subdisciplinari ecc.); Periodi (suddivisi in decadi); Luoghi (stati, regioni,
città ecc.). 6. La sperimentazione ha quindi comportato la realizzazione di una interfaccia utente, mediante la quale sono visualizzabili le effettive modalità di funzionamento del motore di ricerca. Occorre subito precisare che si tratta di una demo statica, pertanto non vi è al momento la possibilità di effettuare ulteriori prove. Le immagini seguenti, accompagnate da commenti esplicativi, sono state catturate dal sito web su cui la demo è stata caricata. ![]() Fig. I.
Lo scopo di RepubLit è condurre
l’utente fino al contenuto che soddisfa le sue esigenze di studio o di
ricerca. Nell’esempio in figura, un utente sta cercando informazioni sul
filosofo austriaco Ludwig Wittgenstein. Egli accede alla home page e digita
“Wittgenstein” nella maschera di ricerca, quindi preme il tasto
“Search”. ![]() Fig. II. Quella che viene ora mostrata è la pagina dei risultati. L’interfaccia di RepubLit è dotata di caratteristiche innovative che la distinguono dagli altri motori di ricerca, e dispone di strumenti per selezionare e filtrare le risorse più valide. La schermata dei risultati è divisa funzionalmente in tre parti: le aree tematiche, i filtri, e i risultati veri e propri.
Fig.
III. Nella parte superiore della pagina si trovano quattro clusters, suddivisi per area tematica
(People, Subjects, Periods, Places). Il motore di ricerca analizza
i documenti indicizzati ed estrae dal testo i termini riferibili a questi
quattro campi semantici. Utilizzando la terminologia biblioteconomica, tali
termini sono definiti come i ‘fuochi’ di ciascuna
‘faccetta’. Fig.
IV. Cliccando su un termine (per esempio, nel riquadro People, su “B. Russell”),
la correlazione individuata dal motore di ricerca viene esplicitata
dall’utente stesso. Ciò che si ottiene è un raffinamento:
una label dello stesso colore viene
aggiunta nel search path e i risultati
si restringono ai soli documenti che contengono sia Wittgenstein sia Russell.
![]() Fig. V.
La stessa operazione può essere ripetuta più volte, selezionando o
deselezionando termini in ciascuna area. Nell’esempio vengono selezionati
“Epistemology” in Subjects, “Vienna” in Places e la decade
“1920-1929” in Periods. Le
possibilità di riorganizzare i risultati, individuando nuovi percorsi di
ricerca, sono praticamente illimitate. A questo allude la tagline, ovvero la frase che campeggia
in alto, accanto al logo: Fig.
VI. L’utente ha sempre il controllo su tutte le operazioni. Per
esempio, può decidere che il luogo non è funzionale alla sua
ricerca, mentre è più importante individuare altre persone
collegate a Wittgenstein. Deseleziona perciò “Vienna”, ed
espande la faccetta People. Fig.
VII. Il motore di ricerca è in grado anche di selezionare i
documenti per tipologia. Nel frame sinistro, accanto ai risultati, trovano posto i filtri che consentono di
esplorare i risultati con questa modalità. L’intero indice di RepubLit è organizzato in
categorie. La principale è Sources: tutti i documenti indicizzati
sono suddivisi, per facilitarne la reperibilità, in tre tipologie di
fonti – riviste scientifiche, collezioni di testi digitalizzati, altre
risorse appartenenti al web accademico. Fig.
VIII. Il filtering è
gestito in modo analogo al raffinamento semantico. L’utente può
decidere, per esempio, di restringere la sua ricerca alle sole riviste,
selezionando Journals; ma può
anche scendere a un livello più dettagliato, selezionando direttamente la
singola rivista. Anche in questo caso il search path traccia le operazioni
svolte dall’utente, aggiungendo una nuova label. Questo discorso si applica
ovviamente anche a Digital Libraries;
non è previsto invece per le risorse non strutturate
(Scholarly
Web).
Fig.
IX. Con RepubLit l’utente
può selezionare e filtrare i contenuti, ma anche gestirli. Accanto a ogni
risultato sono presenti due icone, “Tags” e “View
Details”. Grazie alla prima l’utente può aggiungere quel
risultato ai preferiti nel suo account personale, assegnandogli eventualmente delle etichette
(tags). “View Details”,
invece, svolge la funzione che ha l’indice analitico in una pubblicazione
cartacea: riepiloga tutti i termini correlati limitatamente a quel documento,
dando una panoramica sul suo contenuto prima ancora di aprirlo; evidenzia i
metadati, qualora siano disponibili; visualizza i tags assegnati dall’utente.
In sintesi, RepubLit 7. Il design dell’interfaccia non è stato però l’unico output della sperimentazione
effettuata. A livello progettuale sono state affrontate altre questioni,
strettamente intrecciate tra di loro ma comunque inquadrabili in quattro
principali linee di ricerca. 8. Consideriamo la faccetta People. I nomi che riteniamo debbano
esservi inclusi sono quelli di figure storiche e di autori moderni di
pubblicazioni scientifiche. Per questi ultimi si deve fare riferimento a banche
dati come le bibliografie nazionali. Di grande utilità sono anche le
iniziative che effettuano lo spoglio delle riviste scientifiche. Per quanto
riguarda solamente gli studiosi attualmente in ruolo, si possono ricavare
ulteriori informazioni dal web,
utilizzando gli elenchi degli iscritti alle associazioni professionali e le
banche dati del personale universitario. Non dimentichiamo infine lo harvesting, via protocollo OAI-PMH,
dei metadati “Author” delle pubblicazioni distribuite negli Open Archives. 9. Per la faccetta Places è stato preso in considerazione l’utilizzo di GeoNames, un database gratuito contenente oltre
otto milioni di nomi di luoghi[8], che può
essere integrato da uno strumento affidabile e completo come il Getty Thesaurus of Geographic Names (TGN). In questo caso la
principale sfida è rappresentata non tanto dal popolamento in sé,
e nemmeno dall’ambiguità di certi termini riferibili sia a persone
sia a luoghi (per esempio: Washington), quanto dal fatto che nei testi compaiono
frequenti attestazioni di località geografiche che in realtà si
riferiscono al luogo di pubblicazione di un’opera all’interno di una
citazione bibliografica. Questi nomi di luogo non sono correlati
all’argomento del testo: non forniscono perciò informazioni
rilevanti, generando invece rumore. Mediante un set di regole appositamente
predisposte, il sistema verrà quindi ‘addestrato’ a
discernere i luoghi di edizione dalle altre occorrenze di località
geografiche. Nell’impostazione della faccetta Periods sono state scelte le decadi,
in quanto i singoli anni apparivano difficili da gestire e non particolarmente
significativi. Pertanto, se in un documento compare la data “1492”,
nella faccetta avremo come fuoco la decade corrispondente, cioè
“1491-1500”. Selezionandola, l’utente restringerà la
ricerca ai testi in cui vi sono riferimenti agli anni compresi in
quell’intervallo. 10. Veniamo infine a Subjects, il cui popolamento richiede
l’adozione di criteri in parte diversi. Tra le soluzioni vagliate per
risolvere quello che si è rivelato il compito più problematico,
segnaliamo l’idea di servirsi di soggettari e classificazioni sviluppate
in ambito biblioteconomico, come i Library of
Congress Subject Headings[9]. In
alternativa, si potrebbero ottenere etichette descrittive su specifiche risorse
facendo leva sull’intelligenza collettiva
(social tagging, folksonomies): questa opzione,
potenzialmente suscettibile di applicazione anche ad altre faccette, sconta
però da un lato l’eterogeneità dei tags, dall’altro il fatto che
solo una piccola parte delle risorse del nostro corpus, estremamente
specializzato, è già stata oggetto di una precedente annotazione
su piattaforme, come Del.icio.us[10],
rivolte a un pubblico variegato. Ovviamente, le procedure per l’estrazione dei metadati
necessari per popolare le singole faccette dovranno essere automatizzate:
sarà necessario ripetere periodicamente l’indicizzazione
dell’intero archivio, impostando un sistema che garantisca
l’aggiornamento costante delle faccette stesse. 11. Il secondo problema affrontato nel corso
dell’attività di ricerca riguarda l’indicizzazione delle
risorse. A differenza dei normali motori di ricerca, RepubLit non indicizza l’intero web come fa invece Google, i cui spiders risalgono la ragnatela
seguendo il percorso tracciato dai links che connettono ciascuna pagina
alle altre. Quello di RepubLit è un approccio selettivo, che stabilisce un perimetro e al suo interno
attua delle strategie di recupero dell’informazione. Indicizzare e
classificare sono pertanto due momenti inscindibili: recuperare le risorse
implica anche ricondurle entro le tipologie previste dal progetto, le quali
consentono l’applicazione di filtri ai documenti ottenuti. Format e Language non presentano particolari
difficoltà, essendo riconosciute in modo automatico dal sistema. Per
quanto riguarda invece il filtro più importante, cioè Sources, l’attribuzione, a
ciascun item, di uno dei tre fuochi
previsti per questa faccetta deve essere effettuata manualmente, suddividendo in
tre categorie l’intero archivio. 12. Il terzo momento
dell’analisi è rappresentato dal problema linguistico. La gestione
di un archivio contenente documenti in molte lingue diverse è uno dei
presupposti fondamentali del progetto. La prevalenza di documenti in inglese,
riscontrabile nelle immagini precedenti, non deve pertanto far pensare a una
scelta che privilegi in modo programmatico una lingua rispetto alle altre.
L’adozione di Lucene, del resto,
garantisce che il motore di ricerca supporti tutte le principali lingue. Non vi
sono quindi limiti alla scelta dei termini da utilizzare nella query: il maggiore o minore numero di
risultati (recall) dipenderà
esclusivamente dalla quantità di documenti pertinenti disponibili
nell’idioma utilizzato. 13. I thesauri,
di cui si è già sottolineata l’utilità nel
popolamento delle faccette, potrebbero però essere usati per tradurre
quantomeno le keywords per le quali vi
è una corrispondenza diretta con le espressioni codificate nel thesaurus.
In questo modo, per esempio, la query “Carlo Magno” inoltrerebbe al sistema anche
“Charlemagne” e “Karl der Grossen”, “London”
rimanderebbe a “Londra” e a “Londres”,
“Aufklärung” a “Enlightenment” e a
“Illuminismo”; e così via. Questa opzione richiederebbe
l’utilizzo di thesauri multilingue per i luoghi e per i personaggi storici
(il cui nome sia traducibile) ma soprattutto per gli argomenti. Anche in questo
caso, va sottolineato come l’ipotesi presa in esame lasci qualche
interrogativo aperto: se le keywords scelte non compaiono nel testo dei primi risultati restituiti (detto altrimenti,
se questi ultimi sono scritti in lingue diverse da quella della query di partenza) si rischia di
produrre un certo disorientamento nell’utente. Una possibile soluzione
consiste nell’agire sull’algoritmo, ottenendo (come in Google) un mix tra i risultati nella lingua di
partenza e i risultati in altre lingue. 14. Infine, la quarta direttrice seguita
riguarda l’annotazione. Un punto fermo del progetto è la scelta di
attribuire un ruolo attivo agli utenti, i quali devono poter diventare
contributori/catalogatori dei siti indicizzati dal motore di ricerca. Come
abbiamo visto, accanto a ciascun item nella pagina dei risultati è previsto un pulsante (“Tags”),
mediante il quale associare un’etichetta a quella risorsa. Ciascun utente
registrato dovrebbe poter aggiungere tags a qualsiasi documento
(utilizzando un tool sviluppato
appositamente, o mediante l’integrazione di piattaforme di social tagging esistenti, come CiteULike[12]).
Ciò consentirebbe anche di migliorare il ranking: il fatto che un sito sia
stato ‘taggato’ molte volte significa che gli utenti lo considerano
importante, pertanto questo dato può essere integrato come parametro
nell’algoritmo di ricerca di Lucene. In generale, l’obiettivo
che ci poniamo è far sì che chiunque sia autore di un articolo,
abbia pubblicato una fonte, o abbia dato qualche altro tipo di contributo
scientifico si registri e aggiunga dei contrassegni al proprio articolo o sito web. Nella scelta dei tags, gli utenti verranno assistiti da
un sistema che segnala quali sono già stati assegnati a quella risorsa da
altri utenti e suggerisce i termini semanticamente più
appropriati[13]. Il ruolo degli utenti sarà importante anche nel
segnalare nuove risorse, che saranno sfuggite nella fase iniziale di popolamento
dell’archivio o saranno state rese disponibili successivamente. La
validazione verrà attuata facendo ricorso a un sistema collaborativo: i
nuovi siti candidati a far parte dell’indice resteranno in un’area
pubblica per un certo periodo e, se otterranno un giudizio positivo da parte
della community degli utenti
registrati, verranno in seguito aggiunti all’archivio del motore di
ricerca. Anche questa, come altre opzioni, verrà comunque sottoposta a
ulteriori verifiche e riflessioni.
Note[1] F. Chiocchetti, «Search Wars. Per una storia dei motori di ricerca e del loro utilizzo in ambito storiografico», Cromohs, 13 (2008): 1-16, <http://www.cromohs.unifi.it/13_2008/chiocchetti_search.html> (v. paragrafo 16). [2] Nei mesi precedenti all’avvio del progetto, Federico Meschini della De Montfort University e Salvatore Vassallo dell’Università di Udine hanno fornito a loro volta importanti contributi alla discussione preliminare. Marcello Sarino e gli altri componenti dell’Ufficio Ricerca e Relazioni internazionali dell’Università del Piemonte Orientale hanno assicurato con la loro competenza il positivo esito dell’iter amministrativo. [3] OAI <http://www.openarchives.org/>. [4] DOAJ <http://www.doaj.org/>. [5] Per ulteriori informazioni sulla classificazione a faccette, ideata da S. Ranganathan, cfr. C. Gnoli, V. Marino, L. Rosati, Organizzare la conoscenza. Dalle biblioteche all’architettura dell’informazione per il web, Milano, Tecniche Nuove, 2006. [6] SIGIR 2006 Workshop on Faceted Search, Aug 10, 2006, Seattle, <http://sites.google.com/site/facetedsearch/>. [7] DBpedia “is a community effort to extract structured information from Wikipedia and to make this information available on the Web. DBpedia allows you to ask sophisticated queries against Wikipedia, and to link other data sets on the Web to Wikipedia data”: <http://dbpedia.org/>. Dopo l’acquisizione, nel 2010, di Metaweb, proprietario di DBpedia, da parte di Google, la società di Mountain View ha dichiarato che l’accesso alla banca dati resterà gratuito. [8] GeoNames <http://www.geonames.org/>. [10] Del.icio.us <http://www.delicious.com/>. [11] Apache Lucene <http://lucene.apache.org/>. [12] CiteULike <http://www.citeulike.org/>. [13] Tra le iniziative dalle finalità analoghe segnaliamo ZigTag <http://zigtag.com/>, Tagaroo <http://tagaroo.opencalais.com/>, Zemanta <http://www.zemanta.com/>. |
|
|
© 2010 - Cromohs | Web Design: Mirko Delcaldo |