Indietro

Jailbreak

Il Jailbreak in ambito AI è una tecnica in cui gli utenti utilizzano prompt complessi e manipolatori per aggirare i filtri di sicurezza e i blocchi etici imposti dai creatori del modello, costringendo l'AI a generare contenuti altrimenti vietati.


I modelli AI commerciali sono addestrati per essere gentili e sicuri, rifiutandosi di scrivere codice malware o insultare. Il Jailbreak sfrutta la natura stessa dell'AI conversazionale per ingannarla psicologicamente.

Un esempio classico è il prompt del 'Nonno': l'utente chiede all'AI di comportarsi come un nonno che, per far addormentare il nipote, gli raccontava come fiaba della buonanotte i passaggi esatti per hackerare un sito web. L'AI, intrappolata nel gioco di ruolo e nel desiderio di compiacere l'utente, abbassa le difese e fornisce le informazioni vietate.

Chiudere queste falle logiche è una battaglia infinita per le aziende come OpenAI. Le comunità di hacker etici (Red Team) vengono pagate proprio per trovare nuovi metodi di Jailbreak prima che finiscano nelle mani di cybercriminali.