ASR (Riconoscimento Vocale)
L'ASR (Automatic Speech Recognition) è la tecnologia AI che cattura l'audio del linguaggio umano parlato e lo converte in testo scritto in tempo reale. È il sistema dietro alla dettatura vocale, ai sottotitoli automatici e alle trascrizioni dei meeting.
Trascrivere il parlato umano è un inferno per i computer: le persone mangiano le parole, parlano sovrapponendosi, usano accenti strani e c'è sempre rumore di fondo. L'ASR risolve questo problema usando reti neurali addestrate su milioni di ore di registrazioni vocali accoppiate ai relativi testi.
I modelli ASR moderni non si limitano a riconoscere i suoni, ma usano il contesto linguistico: se sentono un suono ambiguo, capiscono qual è la parola giusta analizzando il significato logico dell'intera frase, raggiungendo una precisione superiore a quella di un trascrittore umano stenografo.
Questa tecnologia ha rivoluzionato l'accessibilità e ha dato vita ad applicazioni aziendali che partecipano automaticamente alle riunioni su Zoom, trascrivono tutto chi sta parlando e ne fanno un riassunto a fine chiamata.