---+++ Esercitazione intermedia - Lucene * Scaricate !WordNet 2.1 da http://wordnet.princeton.edu * Indicizzate i 4 file del dizionario (uno per ogni categoria sintattica: data.noun, data.adj, data.verb, data.adv) * L'indicizzazione deve essere effettuata per: sinonimi, categoria sintattica ("n", "a", "v", "r", rispettivamente per nomi, aggettivi, verbi e avverbi), glossa (applicare tokenizzazione e stemming) * Formato dei file !WordNet: * *[offset]* [lexicographer_id] [categoria_sintattica] *[numero_sinonimi]* *[sinonimo]* [cifra] [[sinonimo] [cifra] ...] ... | *glossa* * Esempio: 00004359 03 n 02 living_thing 0 animate_thing 0 007 @ 00003122 n 0000 -c 01706638 a 0000 ~ 00004576 n 0000 ~ 00006085 n 0000 ~ 00006216 n 0000 ~ 00006300 n 0000 -c 04997290 n 0000 | a living (or once living) entity * A voi interessa solo [numero_sinonimi] (02 nell'esempio), i vari sinonimi e la glossa; vi serve anche l'offset (un identificativo numerico univoco del synset) * *Attenzione*: [numero_sinonimi] è espresso in esadecimale!!! Es. 05= 5, 0a = 10, 0c = 12, ecc. * Dovete poter effettuare le seguenti ricerche (potete utilizzare QueryParser per costruire la query a partire da una riga del file query.txt fornito qui sotto): * Tutti i synset che contengono una parola (*opzionale*: anche se fa parte di una multi-word expression, es. car_rental, car_race, ecc. se cerco car (ma non carriage, carrot, ecc.)) * Tutti i synset che hanno nella glossa una parola * Tutti i synset che contengono nella glossa due parole (in AND o in OR) * Formato del vostro output: * per ciascuna query, una riga con l'elenco degli offset che rispondono alla query: offset,offset,offset,...,offset (non importa l'ordine degli offset) * esempio di file delle query ([[%ATTACHURL%/../WebHome/esempio_query.txt][txt]]) ed esempio di risultati corretti ([[%ATTACHURL%/../WebHome/esempio_risultato.txt][txt]]) * File delle query da effettuare ([[%ATTACHURL%/../WebHome/query.txt][txt]]) * Inviate il nome del gruppo (singolo studente o coppia), il codice java (è importante anche come indicizzate i singoli campi, tenendo conto del tipo di ricerche e di recuperi che dovete effettuare) e il file risultato delle query a Users.RobertoNavigli ---+++ Risultati esercitazione (aggiornati dopo l'eventuale risottomissione) L'esercitazione vi dà da 0 a 3 punti per il voto finale (2 punti per la parte obbligatoria + 1 per la parte opzionale). * Camillò: 2 (ok) * Russo: 3 (bene anche la parte opzionale, ma java molto male!) * Morgante-Reitano: 1 (non va la ricerca sui sinonimi) * Aiello-Fusca: 2 (ok) * Belardi-Vitali: 0 (continua ad andare male sia sulle glosse che sui sinonimi) * Tripi: 2 (ok) ---++++ Materiale su Lucene * Sito web di Lucene (http://lucene.apache.org) * Lezione su Lucene ([[http://twiki.di.uniroma1.it/pub/Estrinfo/Materiale/Lucene.ppt][ppt]]) * Codice per indicizzare ed effettuare ricerche con Lucene ([[%ATTACHURL%/esempio_Lucene.zip][zip]]) -- Users.RobertoNavigli - 29 Nov 2006
This topic: Estrinfo
>
WebHome
>
EsercitazioneConLucene
Topic revision: r3 - 2007-01-20 - RobertoNavigli
Copyright © 2008-2024 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki?
Send feedback