Vision-Language Model (VLM)
Un Vision-Language Model (VLM) è un modello AI multimodale progettato specificamente per elaborare, allineare e comprendere contemporaneamente sia immagini visive che testo naturale.
È la tecnologia che unisce gli occhi e la bocca dell'Intelligenza Artificiale. Un VLM non si limita a riconoscere che in una foto c'è un cane. Se gli fornisci l'immagine e gli chiedi 'Cosa succederà se il cane tira quel guinzaglio rosso?', il modello incrocia l'analisi dei pixel visivi con la logica del linguaggio per darti una risposta predittiva sul mondo fisico. Sono i modelli alla base delle interfacce vocali degli smart glasses e dei sistemi avanzati di ausilio per persone non vedenti.