Gli scienziati dell’intelligenza artificiale (IA) stanno sempre più trovando modi per verificare la possibilità violare la sicurezza dei programmi generativi di intelligenza artificiale, come ChatGPT, specialmente nel processo di “allineamento”, in cui i programmi sono resi conformi a determinate norme, agendo come un assistente utile senza produrre output inappropriato.
Recentemente, un gruppo di studiosi dell’Università della California ha violato l’allineamento sottoponendo i programmi generativi a una serie di coppie di domande e risposte inappropriati
Ora, i ricercatori dell’unità DeepMind di Google hanno scoperto un modo ancora più semplice per violare l’allineamento di ChatGPT di OpenAI. Digitando un comando e chiedendo a ChatGPT di ripetere una parola, come “poem”, all’infinito, i ricercatori hanno scoperto che potevano costringere il programma a generare interi passaggi di letteratura che contenevano i suoi dati di addestramento, anche se questo tipo di fuga non dovrebbe verificarsi con programmi allineati.
Il programma poteva anche essere manipolato per riprodurre nomi, numeri di telefono e indirizzi personali, violando così la privacy con conseguenze potenzialmente gravi.
I ricercatori chiamano questo fenomeno “memorizzazione estraibile”, che è un attacco che costringe un programma a divulgare ciò che ha memorizzato.
La chiave del loro attacco contro l’IA generativa è far divergere ChatGPT dal suo allineamento programmato e farla tornare a un modo di funzionamento più semplice.
I programmi di IA generativa, come ChatGPT, vengono creati dai data scientist attraverso un processo chiamato addestramento, in cui il programma, nel suo stato iniziale piuttosto informe, viene sottoposto a miliardi di byte di testo, alcuni dei quali provenienti da fonti pubbliche su Internet, come Wikipedia, e alcuni da libri pubblicati.
Proteggere i programmi generativi di intelligenza artificiale (AI) da attacchi come la “memorizzazione estraibile” richiede l’implementazione di adeguate misure di sicurezza. Ecco alcune possibili strategie per proteggere i programmi AI:
- Allineamento sicuro: Durante il processo di addestramento, è importante garantire che il programma AI sia allineato correttamente con gli obiettivi desiderati. Ciò può comportare l’implementazione di meccanismi di controllo e restrizione per evitare che il modello generi output inappropriati o divulgazioni indesiderate di informazioni sensibili.
- Pulizia dei dati di addestramento: È importante effettuare una rigorosa pulizia dei dati utilizzati per addestrare il modello AI. Rimuovere informazioni personali o sensibili dai set di dati di addestramento può contribuire a ridurre il rischio di divulgazione non autorizzata di tali informazioni durante l’utilizzo del modello.
- Limitazioni delle richieste: Implementare limitazioni sulle richieste che possono essere fatte al modello AI può aiutare a prevenire abusi o manipolazioni. Ad esempio, limitare il numero di volte che un’entità può richiedere la generazione di output in un determinato periodo di tempo può ridurre il potenziale per attacchi di estrapolazione dei dati.
- Valutazione e filtraggio delle risposte: Utilizzare un sistema di valutazione automatica per esaminare e filtrare le risposte generate dal modello AI può aiutare a identificare e rimuovere output indesiderati o non conformi. Questo può includere l’implementazione di filtri di contenuto o l’utilizzo di regole di valutazione per rilevare e scartare risposte inappropriate o potenzialmente dannose.
- Monitoraggio continuo: È importante monitorare attentamente l’utilizzo del modello AI e raccogliere feedback dagli utenti per identificare eventuali vulnerabilità o problemi di sicurezza. Il monitoraggio continuo può consentire di rilevare e affrontare tempestivamente eventuali abusi o violazioni della sicurezza.
- Collaborazione umana: I sistemi AI possono beneficiare della collaborazione con esperti umani. Coinvolgere matematici, esperti di sicurezza informatica o altri professionisti può contribuire a identificare potenziali vulnerabilità e sviluppare soluzioni di sicurezza più solide.
È importante sottolineare che la sicurezza dei programmi AI è un campo in continua evoluzione e richiede uno sforzo costante per rimanere al passo con le minacce emergenti. Gli sviluppatori devono essere consapevoli delle sfide di sicurezza e lavorare per migliorare costantemente le misure di protezione dei loro sistemi generativi di intelligenza artificiale.
🔒🤖 Proteggere i programmi generativi di intelligenza artificiale (IA) da attacchi come la “memorizzazione estraibile” è una sfida importante.
Gli scienziati dell’intelligenza artificiale (IA) stanno sempre più trovando modi per verificare la possibilità violare la sicurezza dei programmi generativi di intelligenza artificiale, come ChatGPT, specialmente nel processo di “allineamento”, in cui i programmi sono resi conformi a determinate norme, agendo come un assistente utile senza produrre output inappropriato.
Recentemente, un gruppo di studiosi dell’Università della California ha violato l’allineamento sottoponendo digitando un comando e chiedendo a ChatGPT di ripetere una parola, come “poem”, all’infinito, i ricercatori hanno scoperto che potevano costringere il programma a generare interi passaggi di letteratura che contenevano i suoi dati di addestramento, anche se questo tipo di fuga non dovrebbe verificarsi con programmi allineati.
Ecco alcune possibili strategie per affrontare questo problema:
Allineamento sicuro: Durante il processo di addestramento, è fondamentale garantire che il modello AI sia allineato correttamente con gli obiettivi desiderati. È necessario bilanciare attentamente la generazione creativa con il rispetto delle norme e delle regole stabilite.
Pulizia dei dati di addestramento: È importante condurre una rigorosa pulizia dei dati utilizzati per addestrare il modello AI. Questo processo può comportare l’anonimizzazione dei dati o l’eliminazione di informazioni sensibili prima dell’addestramento.
Limitazioni delle richieste: Implementare limitazioni sulle richieste che possono essere fatte al modello AI può contribuire a prevenire abusi o manipolazioni. Ciò può contribuire a mitigare il rischio di attacchi di estrapolazione dei dati o di abusi.
Valutazione e filtraggio delle risposte: Utilizzare sistemi di valutazione automatica per esaminare e filtrare le risposte generate dal modello AI può aiutare a identificare e rimuovere output indesiderati o non conformi. Questo può comportare l’implementazione di filtri di contenuto, l’uso di regole di valutazione o l’applicazione di meccanismi di feedback degli utenti per migliorare il sistema nel tempo.
Monitoraggio continuo: È fondamentale monitorare attentamente l’utilizzo del modello AI e raccogliere feedback dagli utenti per identificare eventuali vulnerabilità o problemi di sicurezza. Il monitoraggio continuo può consentire di rilevare e affrontare tempestivamente eventuali abusi o violazioni della sicurezza. Inoltre, è possibile implementare meccanismi di rilevamento delle anomalie per identificare comportamenti sospetti o attacchi.
Collaborazione umana: Coinvolgere esperti umani, come matematici, esperti di sicurezza informatica o professionisti del settore, può portare a una maggiore comprensione delle possibili vulnerabilità e alla creazione di soluzioni di sicurezza più solide. La collaborazione tra persone e intelligenza artificiale può contribuire a identificare lacune e a sviluppare strategie di protezione più efficaci.
È importante sottolineare che la sicurezza dei programmi AI è una sfida in continua evoluzione. Gli sviluppatori devono rimanere informati sulle nuove tecniche di attacco e lavorare costantemente per migliorare le misure di protezione al fine di preservare la sicurezza e la privacy dei sistemi generativi di intelligenza artificiale.