Dataset
Un Dataset è una grande raccolta strutturata di informazioni (testi, immagini, audio, database) fornita in pasto a un algoritmo di intelligenza artificiale durante la fase di addestramento affinché possa imparare pattern e logiche.
Nell'AI vale la regola d'oro: 'Spazzatura in entrata, spazzatura in uscita' (Garbage In, Garbage Out). Un algoritmo geniale addestrato su un Dataset piccolo, vecchio o errato produrrà sempre un'intelligenza artificiale inutile o dannosa.
I modelli che usiamo oggi sono stati addestrati su Dataset giganteschi che contengono essenzialmente copie dell'intero internet visibile: Wikipedia, milioni di libri digitalizzati, forum, articoli accademici e codice di programmazione.
Oggi il Dataset è il vero terreno di scontro legale. Artisti, editori e autori stanno lottando nei tribunali sostenendo che le aziende tech abbiano assorbito e monetizzato le loro opere coperte da copyright, inserendole nei Dataset senza mai chiedere il permesso o pagare diritti d'autore.