Pre-addestramento della visione e del linguaggio: Nozioni di base, progressi e tendenze future

Pre-addestramento della visione e del linguaggio: Fondamenti, progressi recenti e tendenze future (Zhe Gan)

Titolo originale:

Vision-Language Pre-Training: Basics, Recent Advances, and Future Trends

Contenuto del libro:

Gli esseri umani percepiscono il mondo attraverso molti canali, come le immagini viste dagli occhi o le voci udite dalle orecchie. Sebbene ogni singolo canale possa essere incompleto o rumoroso, gli esseri umani possono naturalmente allineare e fondere le informazioni raccolte da più canali per cogliere i concetti chiave necessari a una migliore comprensione del mondo.

Una delle aspirazioni principali dell'Intelligenza Artificiale (IA) è quella di sviluppare algoritmi che dotino i computer della capacità di apprendere efficacemente da dati multimodali (o multicanale). Questi dati sono simili alle immagini e ai suoni ottenuti dalla vista e dal linguaggio che aiutano gli esseri umani a dare un senso al mondo che ci circonda. Ad esempio, i computer potrebbero imitare questa capacità cercando le immagini più pertinenti a una query di testo (o viceversa) e descrivendo il contenuto di un'immagine utilizzando il linguaggio naturale. La Vision-and-Language (VL), una popolare area di ricerca che si colloca al confine tra la Computer Vision e l'elaborazione del linguaggio naturale (NLP), mira a raggiungere questo obiettivo.

Questa monografia esamina i metodi di pre-addestramento del linguaggio della visione (VLP) per l'intelligenza multimodale sviluppati negli ultimi anni. Gli approcci sono raggruppati in tre categorie: (i) VLP per compiti di immagine-testo, come la didascalia di immagini, il recupero di immagini-testo, la risposta a domande visive e il visual grounding; (ii) VLP per compiti fondamentali di computer vision, come la classificazione di immagini (open-set), il rilevamento di oggetti e la segmentazione; e (iii) VLP per compiti di video-testo, come la didascalia di video, il recupero di video-testo e la risposta a domande video. Per ogni categoria, viene presentata una rassegna completa dei metodi all'avanguardia e vengono discussi i progressi compiuti e le sfide ancora da affrontare, utilizzando sistemi e modelli specifici come casi di studio. Inoltre, per ogni categoria, vengono presentati argomenti avanzati che vengono attivamente esplorati dalla comunità di ricerca, come i modelli di big foundation, la modellazione unificata, l'apprendimento in-context a pochi scatti, la conoscenza, la robustezza e la computer vision in the wild, per citarne alcuni.

Altre informazioni sul libro:

ISBN:	9781638281320
Autore:	Zhe Gan
Editore:	New Publ Inc
Lingua:	inglese
Rilegatura:	Copertina morbida

Acquisto:

Attualmente disponibile, in magazzino.

Pre-addestramento della visione e del linguaggio: Fondamenti, progressi recenti e tendenze future

Titolo originale:

Contenuto del libro:

Altre informazioni sul libro:

Acquisto:

Altri libri dell'autore:

Le opere dell'autore sono state pubblicate dai seguenti editori: