Indietro

Modello Multimodale

Un Modello Multimodale è un'intelligenza artificiale progettata per comprendere, elaborare e collegare contemporaneamente diversi tipi di dati (modalità), come testo, immagini, audio e video, all'interno della stessa rete neurale.


Fino a poco tempo fa, i modelli AI erano specialisti ciechi o sordi: i modelli testuali non vedevano le immagini, quelli visivi non capivano il testo. I modelli multimodali hanno fuso i sensi dell'intelligenza artificiale.

Immagina di poter caricare la foto del tuo frigorifero aperto e chiedere all'AI a voce: 'Cosa posso cucinare stasera con questi ingredienti?'. Il modello capisce l'immagine, processa il tuo audio e ti risponde con una ricetta testuale.

Questa capacità di incrociare informazioni diverse rende le AI molto più simili al modo in cui noi umani viviamo il mondo, aprendo la strada ad assistenti robotici avanzati e software di analisi completi.