Red Teaming (Squadra Rossa AI)
Il Red Teaming è una pratica di sicurezza in cui un gruppo di esperti (il Red Team) tenta di 'hackerare' o ingannare un'AI per trovarne i punti deboli prima che lo facciano i malintenzionati.
Il nome viene dalle esercitazioni militari. In ambito AI, il Red Team prova a far dire all'AI cose offensive, a farsi dare istruzioni per attività illegali o a rubare dati sensibili attraverso i prompt.
È una fase obbligatoria prima del rilascio di ogni grande modello (come GPT-4 o Claude). Grazie a questi 'attacchi controllati', gli sviluppatori possono tappare i buchi e rendere l'AI più sicura per il pubblico finale.