Scraping
Lo Scraping (o Web Scraping) è una tecnica informatica in cui programmi automatizzati (bot) navigano in massa le pagine web per estrarre, copiare e salvare informazioni e contenuti in un database strutturato.
Per costruire gli immensi Dataset necessari all'Intelligenza Artificiale, non si usano esseri umani che fanno copia-incolla. Si lanciano flotte di bot programmabili che viaggiano su internet alla velocità della luce, aprendo miliardi di siti e 'raschiando' (scraping) tutto il testo o le immagini che vi trovano dentro.
Lo Scraping è un'arma a doppio taglio. Da una parte è essenziale per la ricerca scientifica e per far funzionare motori di ricerca come Google.
Dall'altra, solleva enormi problemi per i proprietari dei siti web, che vedono le proprie risorse server consumate dai bot AI che prelevano contenuti proprietari gratuitamente. Molti editori oggi stanno inserendo codici di blocco tecnici per respingere lo scraping massivo delle compagnie AI.