Ricerca ovunque con Google ...
Estrazione di Informazioni dal Web
(6 crediti, laurea specialistica)
Prof. Paola Velardi
Comunicazioni
AVVISO IMPORTANTE
E' obbligatorio utilizzare il sistema INFOSTUD
https://stud.infostud.uniroma1.it:4445/Sest/Log/Corpo.html per la prenotazione degli esami (da parte degli studenti) e per l'apertura e chiusura degli appelli (da parte dei docenti).
Obiettivi
Questo corso tratta architetture ed algoritmi di sistemi software per l'accesso a documenti disponibili su archivi testuali centralizzati o distribuiti sul web (in questo caso si parla di "motori di ricerca").
Per "documenti" intendiamo genericamente files disponibili in qualsiasi formato, incluse pagine web, multimedia, basi di dati, descrizioni di servizi e programmi, ecc.
Un sistema di accesso a documenti, o information retrieval system (IR), è un sistema in grado di recuperare da un archivio (eventualmente da tutto il web) i documenti rilevanti a fronte di una interrogazione, o query, da parte di un utente.
In un archivio centralizzato, i metodi di retrieval sono basati su un qualche modello più o meno sofisticato di rappresentazione del contenuto del documento (ad esempio parole-chiave). Nei sistemi distribuiti, noti anche come motori di ricerca o browser, oltre alle informazioni sul contenuto, grande rilevanza hanno anche informazioni sulla struttura ipertestuale dei documenti, cioè sui sistemi di puntamento che consentono di "navigare" da una pagina all'altra.
Nel corso, verranno trattati dapprima i sistemi di information retrieval "classici" (quelli utilizzati per recuperare documenti da archivi statici, basandosi solo sul contenuto dei documenti) e quindi le estensioni di tali sistemi, rese necessarie dall'avvento del web. La quantita' e diversita' dei documenti (pagine web) presenti in rete ha infatti reso necessario l'utilizzo di metodi di ricerca basati non solo sul contenuto delle pagine, ma anche su altri indicatori (ad esempio, l'autorevolezza di una fonte, la collocazione di una pagina nel grafo del web, eccetera).
Successivamente, verranno presentate tecniche di retrieval "intelligenti", basate su un'analisi più approfondita dei contenuti (metodi di elaborazione automatica del linguaggio naturale). In particolare, verranno trattati sistemi di Information Extraction (sistemi che "ritagliano" dai testi le sole porzioni di interesse per un utente, anzichè limitarsi a presentare un elenco di documenti probabilmente rilevanti), e sistemi di Question Answering (capaci di generare una risposta in linguaggio naturale ad una domanda in linguaggio naturale). Infine, verranno presentati sistemi di ricerca di documenti multimediali, per i quali il contenuto è rappresentato da immagini, suoni, filmati, ecc.
Il corso prevede lo svolgimento di due "progetti", uno a metà corso (molto semplice) , utilizzando Lucene
http://lucene.apache.org/ e uno a fine corso, su argomenti e con strumenti stabiliti anno per anno.
Programma preliminare
- Estrarre e Accedere a Informazioni sul Web: problematiche e stato dell'arte
- Information Retrieval e Web Information Retrieval
- Sistemi di Information Retrieval: architettura
- Metodi di trattamento e indicizzazione dei documenti
- Modelli di ranking: booleano, vettoriale, probabilistico
- Valutazione delle prestazioni
- Modelli avanzati di ranking:
- query expansion
- analisi strutturale
- latent semantic indexing
- Web Information retrieval:
- link analysis
- anchor analysis
- spidering
- Intelligent Information Retrieval:
- Information Extraction
- Question Answering
- Opinion Mining
- Multimedia information Extraction (con approfondimenti su Image Information Retrieval)
Modalita' di svolgimento del corso ed esame
Il voto viene assegnato sulla base di un esame orale sugli argomenti del corso e dello svolgimento di un progetto. A fine corso, per chi ha seguito, la prova orale è sostituita con una prova scritta, composta di due domande di teoria (es. descrizione di qualcuno degli algoritmi illustrati a lezione) e un esercizio. Tutti (chi segue e chi non segue il corso) sono tenuti a consegnare il mini-progettino di mid-term.
E' possibile sostenere l'esame orale (o scritto) e consegnare il progetto in date diverse, ma la verbalizzazione avviene solo quando avrete superato tutte le fasi: esame sul programma del corso, prova mid-term, e progetto.
Esame
Notizie sullo svolgimento degli esami verranno fornite durante lo svolgimento del corso.
Esercitazione con Lucene
Clicca qui per visualizzare il testo dell'
Esercitazione con Lucene dell'anno 2008/2009. Lo svolgimento dell'esercitazione
è un requisito per poter sostenere l'esame. L'esercitazione va svolta
singolarmente da ogni studente. nella sezione "materiale per il corso" trovate i dettagli.
Progetto di fine corso
Il progetto cambia ogni anno. Può essere svolto
singolarmente o in coppia. Alcuni aspetti di "preparazione" dei dati, quando necessari, possono essere svolti collettivamente.
Per il progetto 2009, accedete alla pagina MATERIALE e alla sezione che contiene tutti il materiale descrittivo del progetto.
Per l'anno
2010, il progetto si baserà sulla piattaforma open source di Information Retrieval GATE
http://gate.ac.uk/ie/ . I compiti specifici da svolgere verranno presentati verso la fine del corso, quando lo studente avrà acquisito gli strumenti necessari. Due tematiche verranno considerate: estrazione di informazioni da databases con
descrizioni di film, oppure
analisi di opinioni su social networks.
Libri di testo
Materiale didattico
Il
materiale (aggiornato e modificato ogni anno, controllate le date) viene messo a disposizione durante il corso.
Argomenti di tesi
Proponiamo argomenti di tesi correlate a progetti finanziati dalla comunità europea e a collaborazioni con aziende.
Ecco un elenco di argomenti:
- Opinion harvesting (analizzando blog e reti sociali, determinare opinioni di utenti/consumatori su temi vari);
- Reti sociali basate sul contenuto (algoritmi per lo studio di reti sociali basati sull'analisi dei contenuti delle comunicazioni fra attori sociali);
- Modellazione delle conoscenze di impresa (costruire semi-automaticamente modelli formali di conoscenza di impresa basandosi sull'analisi di documenti di impresa (progetti, collaborazioni, best practices, curricula..);
- Image Information Retrieval (indicizzazione di immagini basandosi sul contenuto dell'immagine e della informazione testuale ad essa associata)