Esercitazione intermedia - Lucene
- Scaricate WordNet 2.1 da http://wordnet.princeton.edu
- Indicizzate i 4 file del dizionario (uno per ogni categoria sintattica: data.noun, data.adj, data.verb, data.adv)
- L'indicizzazione deve essere effettuata per: sinonimi, categoria sintattica ("n", "a", "v", "r", rispettivamente per nomi, aggettivi, verbi e avverbi), glossa (applicare tokenizzazione e stemming)
- Formato dei file WordNet:
- [offset] [lexicographer_id] [categoria_sintattica] [numero_sinonimi] [sinonimo] [cifra] [[sinonimo] [cifra] ...] ... | glossa
- Esempio: 00004359 03 n 02 living_thing 0 animate_thing 0 007 @ 00003122 n 0000 -c 01706638 a 0000 ~ 00004576 n 0000 ~ 00006085 n 0000 ~ 00006216 n 0000 ~ 00006300 n 0000 -c 04997290 n 0000 | a living (or once living) entity
- A voi interessa solo [numero_sinonimi] (02 nell'esempio), i vari sinonimi e la glossa; vi serve anche l'offset (un identificativo numerico univoco del synset)
- Attenzione: [numero_sinonimi] è espresso in esadecimale!!! Es. 05= 5, 0a = 10, 0c = 12, ecc.
- Dovete poter effettuare le seguenti ricerche (potete utilizzare QueryParser per costruire la query a partire da una riga del file query.txt fornito qui sotto):
- Tutti i synset che contengono una parola (opzionale: anche se fa parte di una multi-word expression, es. car_rental, car_race, ecc. se cerco car (ma non carriage, carrot, ecc.))
- Tutti i synset che hanno nella glossa una parola
- Tutti i synset che contengono nella glossa due parole (in AND o in OR)
- Formato del vostro output:
- per ciascuna query, una riga con l'elenco degli offset che rispondono alla query: offset,offset,offset,...,offset (non importa l'ordine degli offset)
- esempio di file delle query (txt) ed esempio di risultati corretti (txt)
- File delle query da effettuare (txt)
- Inviate il nome del gruppo (singolo studente o coppia), il codice java (è importante anche come indicizzate i singoli campi, tenendo conto del tipo di ricerche e di recuperi che dovete effettuare) e il file risultato delle query a RobertoNavigli
Risultati esercitazione (aggiornati dopo l'eventuale risottomissione)
L'esercitazione vi dà da 0 a 3 punti per il voto finale (2 punti per la parte obbligatoria + 1 per la parte opzionale).
- Camillò: 2 (ok)
- Russo: 3 (bene anche la parte opzionale, ma java molto male!)
- Morgante-Reitano: 1 (non va la ricerca sui sinonimi)
- Aiello-Fusca: 2 (ok)
- Belardi-Vitali: 0 (continua ad andare male sia sulle glosse che sui sinonimi)
- Tripi: 2 (ok)
Materiale su Lucene
--
RobertoNavigli - 29 Nov 2006