Statistical Methods for Annotation Analysis
Etichetarea datelor este una dintre cele mai fundamentale activități din știință și a stat la baza practicii, în special în medicină, timp de decenii, precum și a cercetării în lingvistica corpusului cel puțin de la dezvoltarea corpusului Brown. Odată cu trecerea la învățarea automată în inteligența artificială (AI), crearea de seturi de date care să fie utilizate pentru instruirea și evaluarea sistemelor AI, cunoscute în AI și sub denumirea de corpusuri, a devenit, de asemenea, o activitate centrală în domeniu.
Primele seturi de date pentru IA au fost create ad-hoc pentru a aborda probleme specifice. Pe măsură ce au fost create seturi de date mai mari și mai reutilizabile, care necesitau investiții mai mari, a apărut nevoia unei abordări mai sistematice a creării seturilor de date pentru a asigura o calitate sporită. Au fost adoptate o serie de metode statistice, adesea, dar nu exclusiv, din domeniul științelor medicale, pentru a se asigura că etichetele utilizate nu sunt subiective sau pentru a alege între diferitele etichete furnizate de codificatori.
O mare varietate de astfel de metode este în prezent utilizată în mod regulat. Această carte este menită să ofere o trecere în revistă a celor mai utilizate dintre aceste metode statistice care sprijină practica adnotării.
Din câte știu autorii, aceasta este prima carte care încearcă să acopere cele două familii de metode utilizate pe scară largă. Prima familie de metode se referă la dezvoltarea schemelor de etichetare și, în special, la asigurarea faptului că aceste scheme sunt de așa natură încât se poate observa un acord suficient între codificatori.
A doua familie include metode dezvoltate pentru a analiza rezultatele codificatorilor odată ce s-a convenit asupra schemei, în special, deși nu exclusiv, pentru a identifica cea mai probabilă etichetă pentru un element dintre cele furnizate de codificatori. Această carte se concentrează în primul rând pe prelucrarea limbajului natural, domeniul inteligenței artificiale dedicat dezvoltării modelelor de interpretare și producere a limbajului, însă multe, dacă nu chiar majoritatea metodelor discutate aici sunt aplicabile și altor domenii ale inteligenței artificiale sau, într-adevăr, altor domenii ale științei datelor.
© Book1 Group - toate drepturile rezervate.
Conținutul acestui site nu poate fi copiat sau utilizat, nici parțial, nici integral, fără permisiunea scrisă a proprietarului.
Ultima modificare: 2024.11.08 07:02 (GMT)