Simulazione di collezioni di test di Information Retrieval

Simulazione di raccolte di test di recupero delle informazioni (David Hawking)

Titolo originale:

Simulating Information Retrieval Test Collections

Contenuto del libro:

Le raccolte di test simulati possono trovare applicazione in situazioni in cui non è possibile accedere facilmente agli insiemi di dati reali a causa di problemi di riservatezza o di inconvenienti pratici. Possono supportare la sperimentazione, la messa a punto, la validazione, la previsione delle prestazioni e il dimensionamento dell'hardware di Information Retrieval (IR). Naturalmente, l'accuratezza e l'utilità dei risultati ottenuti da una simulazione dipendono dalla fedeltà e dalla generalità dei modelli che ne sono alla base. La fedeltà dell'emulazione di un corpus reale è probabilmente limitata dal requisito che le informazioni riservate del corpus reale non possano essere estratte dalla versione emulata. Presentiamo una serie di metodi che esplorano i compromessi tra la fedeltà dell'emulazione e il grado di conservazione della privacy.

Presentiamo tre diversi tipi semplici di generatori di testo che operano a livello micro: modelli di Markov, modelli a rete neurale e cifrari di sostituzione. Descriviamo anche metodi a livello macro in cui è possibile ingegnerizzare le macro proprietà di un corpus, fornendo una serie di modelli per ciascuna delle proprietà salienti: distribuzione della lunghezza dei documenti, distribuzione della frequenza delle parole (per casi indipendenti e non indipendenti), lunghezza delle parole e rappresentazione testuale e crescita del corpus.

Presentiamo i risultati dell'emulazione di corpora esistenti e della scalatura di corpora di due ordini di grandezza. Dimostriamo che le raccolte simulate generate con metodi relativamente semplici sono adatte ad alcuni scopi e possono essere generate molto rapidamente. In effetti, a volte può essere fattibile incorporare un semplice generatore di corpora leggero in un indicizzatore allo scopo di studiarne l'efficienza.

Naturalmente, un corpus di testo artificiale non può supportare la sperimentazione dell'IR in assenza di un insieme di query compatibili. Discutiamo e sperimentiamo i metodi pubblicati per la generazione di query e l'emulazione dei log delle query.

Presentiamo uno studio di prova in cui osserviamo l'accuratezza predittiva dei risultati di efficienza ed efficacia ottenuti su versioni emulate dei corpora TREC. Lo studio include tre sistemi di reperimento open-source e diversi dataset TREC. Esiste un compromesso tra la riservatezza e l'accuratezza della previsione ed esistono interessanti interazioni tra i sistemi di reperimento e i set di dati. La nostra conclusione provvisoria è che esistono metodi di emulazione che consentono di ottenere un'utile accuratezza di predizione, fornendo al contempo un livello di riservatezza adeguato per molte applicazioni.

Molti dei metodi qui descritti sono stati implementati nel progetto open source SynthaCorpus, accessibile all'indirizzo: https: //bitbucket.org/davidhawking/synthacorpus/.

Altre informazioni sul libro:

ISBN:	9783031011955
Autore:	David Hawking
Editore:	Springer International Publishing AG
Lingua:	inglese
Rilegatura:	Brossura
Anno di pubblicazione:	2020
Numero di pagine:	162

Acquisto:

Attualmente disponibile, in magazzino.

Simulazione di raccolte di test di recupero delle informazioni

Titolo originale:

Contenuto del libro:

Altre informazioni sul libro:

Acquisto:

Altri libri dell'autore:

Le opere dell'autore sono state pubblicate dai seguenti editori: