Preinstruirea limbajului vizual: Noțiuni de bază, progrese și tendințe viitoare

Preinstruirea limbajului vizual: Noțiuni de bază, progrese recente și tendințe viitoare (Zhe Gan)

Titlul original:

Vision-Language Pre-Training: Basics, Recent Advances, and Future Trends

Conținutul cărții:

Oamenii percep lumea prin mai multe canale, cum ar fi imaginile văzute de ochi sau vocile auzite de urechi. Deși orice canal individual poate fi incomplet sau zgomotos, oamenii pot alinia și fuziona în mod natural informațiile colectate din mai multe canale pentru a înțelege conceptele-cheie necesare unei mai bune înțelegeri a lumii.

Una dintre aspirațiile principale ale inteligenței artificiale (AI) este de a dezvolta algoritmi care să confere computerelor capacitatea de a învăța eficient din date multimodale (sau multicanal). Aceste date sunt similare imaginilor și sunetelor obținute din vedere și limbaj, care îi ajută pe oameni să înțeleagă lumea din jurul nostru. De exemplu, calculatoarele ar putea imita această capacitate prin căutarea celor mai relevante imagini pentru o interogare text (sau viceversa) și prin descrierea conținutului unei imagini utilizând limbajul natural. Viziunea și limbajul (VL), un domeniu de cercetare popular care se află la intersecția dintre viziunea pe calculator și prelucrarea limbajului natural (NLP), își propune să atingă acest obiectiv.

Această monografie analizează metodele de preinstruire a limbajului vizual (VLP) pentru inteligența multimodală care au fost dezvoltate în ultimii ani. Abordările sunt grupate în trei categorii: (i) VLP pentru sarcini de tip text-imagine, cum ar fi subtitrarea imaginilor, recuperarea text-imagine, răspunsurile la întrebări vizuale și fundamentarea vizuală; (ii) VLP pentru sarcini de bază de computer vision, cum ar fi clasificarea imaginilor (open-set), detectarea obiectelor și segmentarea; și (iii) VLP pentru sarcini de tip text-video, cum ar fi subtitrarea video, recuperarea text-video și răspunsurile la întrebări video. Pentru fiecare categorie, este prezentată o analiză cuprinzătoare a metodelor de ultimă generație și sunt discutate progresele care au fost realizate și provocările cu care încă ne confruntăm, utilizând sisteme și modele specifice ca studii de caz. În plus, pentru fiecare categorie, sunt prezentate subiecte avansate care sunt explorate în mod activ în comunitatea de cercetare, cum ar fi modelele de bază mari, modelarea unificată, învățarea în context a câtorva fotografii, cunoașterea, robustețea și viziunea computerizată în mediul natural, pentru a numi doar câteva.

Alte date despre carte:

ISBN:	9781638281320
Autor:	Zhe Gan
Editura:	New Publ Inc
Limbă:	engleză
Legare:	Copertă moale

Cumpărare:

Disponibil în prezent, pe stoc.

Preinstruirea limbajului vizual: Noțiuni de bază, progrese recente și tendințe viitoare

Titlul original:

Conținutul cărții:

Alte date despre carte:

Cumpărare:

Alte cărți ale autorului:

Lucrările autorului au fost publicate de următorii editori: