r49 - 09 Mar 2010 - 11:35:08 - PaolaVelardiYou are here: TWiki >  Estrinfo Web > WebHome
Ricerca ovunque con Google ...

Estrazione di Informazioni dal Web

(6 crediti, laurea specialistica)

Prof. Paola Velardi

Comunicazioni

AVVISO IMPORTANTE

E' obbligatorio utilizzare il sistema INFOSTUD https://stud.infostud.uniroma1.it:4445/Sest/Log/Corpo.html per la prenotazione degli esami (da parte degli studenti) e per l'apertura e chiusura degli appelli (da parte dei docenti).

Obiettivi

Questo corso tratta architetture ed algoritmi di sistemi software per l'accesso a documenti disponibili su archivi testuali centralizzati o distribuiti sul web (in questo caso si parla di "motori di ricerca"). Per "documenti" intendiamo genericamente files disponibili in qualsiasi formato, incluse pagine web, multimedia, basi di dati, descrizioni di servizi e programmi, ecc.

Un sistema di accesso a documenti, o information retrieval system (IR), è un sistema in grado di recuperare da un archivio (eventualmente da tutto il web) i documenti rilevanti a fronte di una interrogazione, o query, da parte di un utente. In un archivio centralizzato, i metodi di retrieval sono basati su un qualche modello più o meno sofisticato di rappresentazione del contenuto del documento (ad esempio parole-chiave). Nei sistemi distribuiti, noti anche come motori di ricerca o browser, oltre alle informazioni sul contenuto, grande rilevanza hanno anche informazioni sulla struttura ipertestuale dei documenti, cioè sui sistemi di puntamento che consentono di "navigare" da una pagina all'altra.

Nel corso, verranno trattati dapprima i sistemi di information retrieval "classici" (quelli utilizzati per recuperare documenti da archivi statici, basandosi solo sul contenuto dei documenti) e quindi le estensioni di tali sistemi, rese necessarie dall'avvento del web. La quantita' e diversita' dei documenti (pagine web) presenti in rete ha infatti reso necessario l'utilizzo di metodi di ricerca basati non solo sul contenuto delle pagine, ma anche su altri indicatori (ad esempio, l'autorevolezza di una fonte, la collocazione di una pagina nel grafo del web, eccetera).

Successivamente, verranno presentate tecniche di retrieval "intelligenti", basate su un'analisi più approfondita dei contenuti (metodi di elaborazione automatica del linguaggio naturale). In particolare, verranno trattati sistemi di Information Extraction (sistemi che "ritagliano" dai testi le sole porzioni di interesse per un utente, anzichè limitarsi a presentare un elenco di documenti probabilmente rilevanti), e sistemi di Question Answering (capaci di generare una risposta in linguaggio naturale ad una domanda in linguaggio naturale). Infine, verranno presentati sistemi di ricerca di documenti multimediali, per i quali il contenuto è rappresentato da immagini, suoni, filmati, ecc.

Il corso prevede lo svolgimento di due "progetti", uno a metà corso (molto semplice) , utilizzando Lucene http://lucene.apache.org/ e uno a fine corso, su argomenti e con strumenti stabiliti anno per anno.

Programma preliminare

  1. Estrarre e Accedere a Informazioni sul Web: problematiche e stato dell'arte
  2. Information Retrieval e Web Information Retrieval
    • Sistemi di Information Retrieval: architettura
    • Metodi di trattamento e indicizzazione dei documenti
    • Modelli di ranking: booleano, vettoriale, probabilistico
    • Valutazione delle prestazioni
    • Modelli avanzati di ranking:
      • query expansion
      • analisi strutturale
      • latent semantic indexing
    • Web Information retrieval:
      • link analysis
      • anchor analysis
      • spidering
  3. Intelligent Information Retrieval:
    • Information Extraction
    • Question Answering
    • Opinion Mining
    • Multimedia information Extraction (con approfondimenti su Image Information Retrieval)

Modalita' di svolgimento del corso ed esame

Il voto viene assegnato sulla base di un esame orale sugli argomenti del corso e dello svolgimento di un progetto. A fine corso, per chi ha seguito, la prova orale è sostituita con una prova scritta, composta di due domande di teoria (es. descrizione di qualcuno degli algoritmi illustrati a lezione) e un esercizio. Tutti (chi segue e chi non segue il corso) sono tenuti a consegnare il mini-progettino di mid-term. E' possibile sostenere l'esame orale (o scritto) e consegnare il progetto in date diverse, ma la verbalizzazione avviene solo quando avrete superato tutte le fasi: esame sul programma del corso, prova mid-term, e progetto.

Esame

Notizie sullo svolgimento degli esami verranno fornite durante lo svolgimento del corso.

Esercitazione con Lucene

Clicca qui per visualizzare il testo dell'Esercitazione con Lucene dell'anno 2008/2009. Lo svolgimento dell'esercitazione è un requisito per poter sostenere l'esame. L'esercitazione va svolta singolarmente da ogni studente. nella sezione "materiale per il corso" trovate i dettagli.

Progetto di fine corso

Il progetto cambia ogni anno. Può essere svolto singolarmente o in coppia. Alcuni aspetti di "preparazione" dei dati, quando necessari, possono essere svolti collettivamente.

Per il progetto 2009, accedete alla pagina MATERIALE e alla sezione che contiene tutti il materiale descrittivo del progetto.

Per l'anno 2010, il progetto si baserà sulla piattaforma open source di Information Retrieval GATE http://gate.ac.uk/ie/ . I compiti specifici da svolgere verranno presentati verso la fine del corso, quando lo studente avrà acquisito gli strumenti necessari. Due tematiche verranno considerate: estrazione di informazioni da databases con descrizioni di film, oppure analisi di opinioni su social networks.

Libri di testo

Materiale didattico

Il materiale (aggiornato e modificato ogni anno, controllate le date) viene messo a disposizione durante il corso.

Argomenti di tesi

Proponiamo argomenti di tesi correlate a progetti finanziati dalla comunità europea e a collaborazioni con aziende. Ecco un elenco di argomenti:

- Opinion harvesting (analizzando blog e reti sociali, determinare opinioni di utenti/consumatori su temi vari);

- Reti sociali basate sul contenuto (algoritmi per lo studio di reti sociali basati sull'analisi dei contenuti delle comunicazioni fra attori sociali);

- Modellazione delle conoscenze di impresa (costruire semi-automaticamente modelli formali di conoscenza di impresa basandosi sull'analisi di documenti di impresa (progetti, collaborazioni, best practices, curricula..);

- Image Information Retrieval (indicizzazione di immagini basandosi sul contenuto dell'immagine e della informazione testuale ad essa associata)

Edit | WYSIWYG | Attach | Printable | Raw View | Backlinks: Web, All Webs | History: r49 < r48 < r47 < r46 < r45 | More topic actions







  • TWiki ... TWiki
 
Viva la pace! Torna al Dipartimento di Informatica

  • create new tag
This site is powered by the TWiki collaboration platformCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback