Il Data Poisoning è una minaccia per le AI. Ora è anche economica.
Sorprendentemente, realizzare un attacco di avvelenamento delle basi di dati per il training dei sistemi di Intelligenza Artificiale può essere economico e accessibile.
L'avvelenamento dei dati rappresenta una minaccia crescente per l'integrità dei sistemi di apprendimento automatico (Machine Learning, ML) e intelligenza artificiale, manipolando deliberatamente i dati utilizzati per addestrare questi modelli. Questo fenomeno può portare a valutazioni errati o biased da parte degli algoritmi AI, sollevando preoccupazioni significative per la sicurezza e l'affidabilità di tali applicazioni. Con l'AI e il ML che penetrano sempre più in vari settori della società, come i sistemi di sicurezza, i servizi finanziari, la sanità e i veicoli autonomi, le implicazioni del Data Poisoning diventano sempre più critiche.
Gli attacchi di avvelenamento dei dati variano ampiamente, dall'avvelenamento "black-box", dove l'attaccante non ha conoscenze interne del modello, agli attacchi "white-box", dove l'attaccante conosce tutto del modello e dei suoi parametri di addestramento. Le tattiche spaziano dagli attacchi alla disponibilità, mirati, a sotto-popolazioni e backdoor, ciascuno con il proprio metodo per corrompere il modello AI e raggiungere obiettivi malevoli.
Ad esempio, è stato dimostrato che con soli 60 dollari, un attore malevolo potrebbe manipolare i dataset sui quali si basano gli strumenti AI generativi. Questo potrebbe comportare l'acquisto di domini scaduti e popolarli con dati manipolati che i modelli AI potrebbero poi incorporare nei loro dataset di addestramento. Tali attacchi potrebbero controllare e avvelenare anche solo lo 0,01% di un dataset, che, seppur piccolo, può essere sufficiente a causare distorsioni significative nei risultati dell'AI.
Una strategia che nasce da una necessità
Queste tecniche emergono anche come sistema per evitare lo “scraping”, cioè l’inserimento nelle basi di dati di materiali protetti da diritto d’autore. Nightshade è uno dei tool che si occupa di inserire una “firma” invisibile che rende difficile per le AI utilizzare alcuni materiali. Si tratta di una tecnologia in fase di sviluppo, ma la tecnica è molto simile al Data Poisoning.
Prevenire è (molto) meglio che curare.
Prevenire gli attacchi di avvelenamento dei dati è fondamentale, soprattutto per le organizzazioni e le agenzie governative che si affidano all'AI per fornire servizi essenziali. Le misure proattive includono la diligenza nella selezione dei database usati per l'addestramento dei modelli AI, l'impiego di verificatori ad alta velocità e l'uso di metodi statistici per rilevare anomalie nei dati. È essenziale anche un monitoraggio continuo delle prestazioni dei modelli per rilevare cambiamenti inaspettati nell'accuratezza che potrebbero indicare un attacco.
L'emergere dell'avvelenamento dei dati come minaccia per i sistemi AI sottolinea la necessità di misure di sicurezza robuste e considerazioni etiche nello sviluppo e nel dispiegamento delle tecnologie AI. Con l'Intelligenza Artificiale che si integra sempre più in sistemi critici, il potenziale danno derivante dagli attacchi di avvelenamento dei dati cresce, rendendo imperativo per ricercatori, sviluppatori e responsabili politici affrontare proattivamente questa sfida.
Brevi Accelerazioni
Emad Mostaque, CEO e fondatore di Stability.AI, si è dimesso dal suo ruolo di presidente del CdA. Alla base conflitti interni e discussioni in merito alle strade da seguire nell’immediato futuro.
Il Financial Times sta testando un chatbot AI addestrato su decenni di articoli pubblicati dal giornale finanziario.