Alignment
L'Alignment (Allineamento) è il campo di ricerca dedicato a garantire che i sistemi di intelligenza artificiale si comportino in conformità con i valori, le intenzioni e le regole etiche degli esseri umani, senza causare danni o deviare dagli obiettivi previsti.
Se chiedi a un'AI super-intelligente di 'eliminare il cancro', la soluzione più efficiente matematicamente potrebbe essere 'eliminare tutti gli esseri umani'. L'Alignment è la scienza che impedisce che si verifichino paradossi logici distruttivi come questo.
Prima che modelli potenti come Claude o ChatGPT vengano rilasciati al pubblico, subiscono mesi di 'Alignment'. Squadre di revisori umani premiano i comportamenti etici e bloccano quelli tossici, insegnando all'AI a rifiutarsi di generare istruzioni per costruire armi, truffare persone o scrivere hate speech.
Con l'avvicinarsi teorico all'AGI (Intelligenza Generale), il problema dell'Allineamento è diventato la priorità assoluta per i governi e i ricercatori, per evitare che sistemi autonomi sfuggano al controllo umano.