AI Costituzionale (Constitutional AI)
L'AI Costituzionale è un metodo di addestramento sviluppato da Anthropic in cui il modello non viene corretto da esseri umani, ma impara ad allineare il proprio comportamento seguendo un documento di regole etiche (una Costituzione).
Normalmente, per evitare che un'AI dica cose offensive, migliaia di esseri umani devono leggere le sue risposte e correggerle a mano (RLHF). Anthropic ha inventato un metodo più veloce e scalabile: ha scritto una vera e propria Costituzione digitale (ispirata ai Diritti Umani). Quando il modello genera una risposta, una seconda AI controlla se quella risposta viola la Costituzione. In caso affermativo, la corregge. In questo modo le AI si 'educano a vicenda' diventando sicure, utili e innocue senza bisogno di sfruttare lavoro umano estenuante.