Ho realizzato per il ministero per il quale lavoro un performante ed innovativo sistema di Information Retrieval. L’evoluzione di questo sistema è un sistema di Question Answering. Per memorizzare i dati di tipo testo(documenti) in un database documentale ho utilizzato ElasticSearch. Per poter eseguire però un processo di Query Formulation, cioè interrogare il database utilizzando delle variazioni/estensioni sulla domanda che viene richiesta, ho necessità di memorizzre tutte le parole dei “documenti” del database usando la loro forma lemmatizzata. ElasticSerrch utilizza una libreria “LemmaGen” che non supporta la lingua italiana ed inoltre le licenze di utilizzo sono di tipo non-commerciale. Qualcuno ha esperienza di QA system e sa aiutarmi come risolvere questo problema?
Grazie valerio
Salve Valerio, alla CELI abbiamo parecchia esperienza su questi temi, puoi contattarci quando vuoi. Buona giornata
Salve, a quale indirizzo posso contattarvi?
direttamente il mio andrea.bolioli celi.it
questo è un classico: http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/
Ciao Guido, conosco bene quella libreria. La mia domanda però è rivolta lato database, cioè un database in grado per ogni parola del testo di memorizzarne la sua versione “lemma”(così come funziona correttamente per lo “stemming”). Secondo te(possiamo darci del tu?) io dovrei fare la lemmatizzazione esternamente e poi inserire nel db, il testo già <>?
grazie valerio
Secondo te(possiamo darci del tu?) io dovrei fare la lemmatizzazione esternamente e poi inserire nel db, il testo già lemmatizzato?
se l’alternativa è fare la lemmatizzazione a runtime direi che in linea di massima ti conviene farla una volta per tutte e mettere il testo annotato nel db. vantaggi 1) puoi correggere la lemmatizzazione a mano (il task non è poi banalissimo, dato il gran numero di omografi), 2) eviti eventuali eccezioni di runtime della pipeline nlp quando sei in esercizio. my 2 cents Guido ps: conosci questo, naturalmente: http://sslmitdev-online.sslmit.unibo.it/linguistics/morph-it.php
Grazie 1000. Treetagger è molto semplice da utilizzare, specialmente con python essendoci un wrapper. morph-it non ho capito bene come si usa, anche la sezione demo non mi sembra dare risultati …Esiste una libraria oppure un eseguibile che includa la logica per utilizzarlo correttamente?
credo che librerie per usare morphit ce ne siano molte in giro, anche io devo averne una persa da qualche parte, comunque farsene una è molto semplice, sono colonne tab-separated, in python sono poche righe di codice
Questo sito utilizza cookie tecnici, analytics e di terze parti. Proseguendo nella navigazione accetti l’utilizzo dei cookie.
Accetto Privacy policy