Simulating Information Retrieval Test Collections
Colecțiile de teste simulate pot fi utilizate în situații în care seturile de date reale nu pot fi accesate cu ușurință din motive de confidențialitate sau inconveniente practice. Acestea pot sprijini experimentarea, reglarea, validarea, predicția performanței și dimensionarea hardware-ului în domeniul recuperării informațiilor (IR). În mod firesc, acuratețea și utilitatea rezultatelor obținute în urma unei simulări depind de fidelitatea și generalitatea modelelor care stau la baza acesteia. Fidelitatea emulării unui corpus real este probabil să fie limitată de cerința ca informațiile confidențiale din corpus-ul real să nu poată fi extrase din versiunea emulată. Prezentăm o serie de metode care explorează compromisurile dintre fidelitatea emulației și gradul de păstrare a confidențialității.
Prezentăm trei tipuri simple diferite de generatoare de text care funcționează la un nivel micro: modele Markov, modele de rețele neuronale și cifruri de substituție. Descriem, de asemenea, metode la nivel macro, prin care putem crea macroproprietăți ale unui corpus, oferind o serie de modele pentru fiecare dintre proprietățile principale: distribuția lungimii documentelor, distribuția frecvenței cuvintelor (pentru cazuri independente și neindependente), lungimea cuvintelor și reprezentarea textuală, precum și creșterea corpusului.
Prezentăm rezultatele emulării corporațiilor existente și ale măririi corporațiilor cu două ordine de mărime. Arătăm că colecțiile simulate generate cu metode relativ simple sunt adecvate pentru anumite scopuri și pot fi generate foarte rapid. Într-adevăr, uneori poate fi fezabil să încorporăm un generator simplu de corpusuri ușoare într-un indexator în scopul studierii eficienței.
În mod firesc, un corpus de text artificial nu poate sprijini experimentarea IR în absența unui set de interogări compatibile. Discutăm și experimentăm cu metodele publicate pentru generarea de interogări și emulația jurnalului de interogări.
Prezentăm un studiu proof-of-the-pudding în care observăm acuratețea predictivă a rezultatelor de eficiență și eficacitate obținute pe versiuni emulate ale corpusurilor TREC. Studiul include trei sisteme de regăsire open-source și mai multe seturi de date TREC. Există un compromis între confidențialitate și precizia predicției și există interacțiuni interesante între sistemele de recuperare și seturile de date. Concluzia noastră provizorie este că există metode de emulare care ating o precizie de predicție utilă, oferind în același timp un nivel de confidențialitate adecvat pentru multe aplicații.
Multe dintre metodele descrise aici au fost implementate în proiectul open source SynthaCorpus, accesibil la adresa: https: //bitbucket.org/davidhawking/synthacorpus/.
© Book1 Group - toate drepturile rezervate.
Conținutul acestui site nu poate fi copiat sau utilizat, nici parțial, nici integral, fără permisiunea scrisă a proprietarului.
Ultima modificare: 2024.11.08 07:02 (GMT)