Tags:
create new tag
view all tags

Esercitazione intermedia - Lucene

  • Scaricate WordNet 2.1 da http://wordnet.princeton.edu
  • Indicizzate i 4 file del dizionario (uno per ogni categoria sintattica: data.noun, data.adj, data.verb, data.adv)
  • L'indicizzazione deve essere effettuata per: sinonimi, categoria sintattica ("n", "a", "v", "r", rispettivamente per nomi, aggettivi, verbi e avverbi), glossa (applicare tokenizzazione e stemming)
  • Formato dei file WordNet:
    • [offset] [lexicographer_id] [categoria_sintattica] [numero_sinonimi] [sinonimo] [cifra] [[sinonimo] [cifra] ...] ... | glossa
    • Esempio: 00004359 03 n 02 living_thing 0 animate_thing 0 007 @ 00003122 n 0000 -c 01706638 a 0000 ~ 00004576 n 0000 ~ 00006085 n 0000 ~ 00006216 n 0000 ~ 00006300 n 0000 -c 04997290 n 0000 | a living (or once living) entity
    • A voi interessa solo [numero_sinonimi] (02 nell'esempio), i vari sinonimi e la glossa; vi serve anche l'offset (un identificativo numerico univoco del synset)
    • Attenzione: [numero_sinonimi] č espresso in esadecimale!!! Es. 05= 5, 0a = 10, 0c = 12, ecc.
  • Dovete poter effettuare le seguenti ricerche (potete utilizzare QueryParser per costruire la query a partire da una riga del file query.txt fornito qui sotto):
    • Tutti i synset che contengono una parola (opzionale: anche se fa parte di una multi-word expression, es. car_rental, car_race, ecc. se cerco car (ma non carriage, carrot, ecc.))
    • Tutti i synset che hanno nella glossa una parola
    • Tutti i synset che contengono nella glossa due parole (in AND o in OR)
  • Formato del vostro output:
    • per ciascuna query, una riga con l'elenco degli offset che rispondono alla query: offset,offset,offset,...,offset (non importa l'ordine degli offset)
    • esempio di file delle query (txt) ed esempio di risultati corretti (txt)
  • File delle query da effettuare (txt)
  • Inviate il nome del gruppo (singolo studente o coppia), il codice java (č importante anche come indicizzate i singoli campi, tenendo conto del tipo di ricerche e di recuperi che dovete effettuare) e il file risultato delle query a RobertoNavigli

Risultati esercitazione (aggiornati dopo l'eventuale risottomissione)

L'esercitazione vi dā da 0 a 3 punti per il voto finale (2 punti per la parte obbligatoria + 1 per la parte opzionale).

  • Camillō: 2 (ok)
  • Russo: 3 (bene anche la parte opzionale, ma java molto male!)
  • Morgante-Reitano: 1 (non va la ricerca sui sinonimi)
  • Aiello-Fusca: 2 (ok)
  • Belardi-Vitali: 0 (continua ad andare male sia sulle glosse che sui sinonimi)
  • Tripi: 2 (ok)

Materiale su Lucene

-- RobertoNavigli - 29 Nov 2006

Edit | Attach | Watch | Print version | History: r3 < r2 < r1 | Backlinks | Raw View | Raw edit | More topic actions
Topic revision: r3 - 2007-01-20 - RobertoNavigli






 
Questo sito usa cookies, usandolo ne accettate la presenza. (CookiePolicy)
Torna al Dipartimento di Informatica
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2021 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback