Augmenting Latent Dirichlet Allocation and Rank Threshold Detection with Ontologies
In un ambiente sempre più ricco di dati, le informazioni utili devono essere estratte, filtrate e correlate da enormi quantità di fonti disparate, spesso di testo libero. L'utilità delle informazioni recuperate dipende dal modo in cui si realizzano queste fasi e si presentano all'analista le informazioni più rilevanti.
Un metodo per estrarre informazioni dal testo libero è la Latent Dirichlet Allocation (LDA), una tecnica di categorizzazione dei documenti per classificarli in argomenti coesi. Sebbene LDA tenga conto di alcune relazioni implicite come la sinonimia (stesso significato), spesso ignora altre relazioni semantiche come la polisemia (significati diversi), l'iponimo (subordinato), il meronimo (parte di) e il troponomio (modo).
Per compensare questa carenza, incorporiamo ontologie di parole esplicite, come WordNet, nell'algoritmo LDA per tenere conto di varie relazioni semantiche. Gli esperimenti condotti sulle collezioni di documenti 20 Newsgroups, NIPS, OHSUMED e IED dimostrano che l'incorporazione di tali conoscenze migliora la misura della perplessità rispetto alla sola LDA per determinati parametri.
© Book1 Group - tutti i diritti riservati.
Il contenuto di questo sito non può essere copiato o utilizzato, né in parte né per intero, senza il permesso scritto del proprietario.
Ultima modifica: 2024.11.08 20:28 (GMT)