Statistical and Semantic Similarity between English Sentences
Această carte prezintă diverși algoritmi pentru calcularea similitudinilor semantice între textele în limba engleză.
Am explorat trei algoritmi diferiți pentru calcularea similarității propozițiilor în limba engleză. Primul algoritm, care este bine explorat în literatura de specialitate (Salton și Buckley, 1988, Wu și Salton, 1981), ponderează cuvintele din fiecare propoziție în funcție de frecvența termenilor și frecvența inversă a documentelor (tf-idf ) și nu utilizează informații semantice.
Al doilea algoritm utilizează măsuri ale distanței semantice dintre cuvintele care aparțin aceleiași părți de vorbire. Al treilea algoritm combină scorurile tf-idf și scorurile distanței semantice dintre cuvinte. Am evaluat performanța celui de-al doilea și celui de-al treilea algoritm pe două seturi de date: setul de perechi de propoziții al lui O'Shea cu judecăți umane de similaritate Li et al., Aug, Rubenstein și Goodenough, 1965) și setul de date de parafrazare la nivel de propoziție al Microsoft Research Rus et al., 2012).
Pe setul de date al lui O'Shea, al treilea algoritm se potrivește mai exact cu aprecierile umane decât al doilea. Pe setul de date Microsoft, nu a existat o diferență semnificativă între cei doi algoritmi.
© Book1 Group - toate drepturile rezervate.
Conținutul acestui site nu poate fi copiat sau utilizat, nici parțial, nici integral, fără permisiunea scrisă a proprietarului.
Ultima modificare: 2024.11.08 07:02 (GMT)