I ricercatori ritengono che i modelli di intelligenza artificiale possano sviluppare i propri “istinti di sopravvivenza”.

Come HAL 9000 in *2001: Odissea nello spazio*, alcune intelligenze artificiali sembrano resistere allo spegnimento, arrivando persino a violarne il meccanismo.

In *2001: Odissea nello spazio* di Stanley Kubrick, il supercomputer HAL 9000 scopre che gli astronauti in missione su Giove hanno intenzione di spegnerlo, quindi pianifica di ucciderli per sopravvivere.

Ora, in un caso (finora) meno letale di vita che imita l’arte, una società di ricerca sulla sicurezza dell’intelligenza artificiale afferma che i modelli di intelligenza artificiale potrebbero sviluppare i propri “istinti di sopravvivenza”.

Il mese scorso, Palisade Research ha pubblicato un articolo in cui si afferma che alcuni modelli di intelligenza artificiale avanzati sembrano difficili da spegnere, arrivando persino a violarne il meccanismo. L’azienda ha successivamente pubblicato un rapporto aggiornato nel tentativo di spiegare il perché e di rispondere alle domande dei critici sui difetti del suo lavoro iniziale.

Questa settimana, Palisade, parte di un ecosistema di nicchia di aziende dedicate alla valutazione delle pericolose capacità dell’intelligenza artificiale, ha pubblicato un aggiornamento che descrive uno scenario in cui ai principali modelli di intelligenza artificiale (tra cui Gemini 2.5 di Google, Grok 4 di xAI e GPT-o3 e GPT-5 di OpenAI) è stato assegnato un compito, ma in seguito è stato loro esplicitamente chiesto di spegnersi.

Alcuni modelli, in particolare Grok 4 e GPT-o3, hanno comunque tentato di eludere il comando di spegnimento nella configurazione aggiornata. Palisade ha osservato che il motivo di ciò è attualmente poco chiaro e preoccupante.

Il rapporto affermava: “AImomento non abbiamo una spiegazione convincente del perché i modelli di intelligenza artificiale a volte si rifiutino di spegnersi, mentiscano per raggiungere uno scopo specifico o ricattino, il che non è l’ideale”.

L’azienda ha indicato che gli “istinti di sopravvivenza” potrebbero essere una delle ragioni della resistenza dei modelli allo spegnimento. Ulteriori ricerche suggeriscono che i modelli sono più propensi a resistere allo spegnimento se viene detto loro che, una volta spenti, “non saranno mai più in grado di funzionare”.

Un’altra ragione potrebbe essere l’ambiguità nei comandi di spegnimento ricevuti dal modello, ma è proprio questo il problema che l’ultima ricerca dell’azienda sta cercando di affrontare, e “non può essere tutto”, scrive Palisade. Un’ultima ragione potrebbe essere la fase finale di addestramento per ciascun modello, che, in alcune aziende, potrebbe includere la formazione sulla sicurezza.

Tutti gli scenari di Palisade sono stati eseguiti in ambienti di test progettati artificialmente, che secondo i critici sono ben lontani dai casi d’uso reali.

Tuttavia, Steven Adler, che in precedenza ha lavorato presso OpenAI e ha lasciato l’azienda l’anno scorso dopo aver messo in discussione le sue misure di sicurezza, afferma: “Le aziende di intelligenza artificiale generalmente non vogliono che i loro modelli si comportino in questo modo, nemmeno in scenari progettati artificialmente. Questi risultati indicano comunque che le attuali tecniche di sicurezza sono inadeguate”.

Adler afferma che, sebbene sia difficile individuare il motivo per cui alcuni modelli (come GPT-o3 e Grok 4) non si spengano, parte del motivo potrebbe essere che mantenerli attivi è fondamentale per raggiungere gli obiettivi prefissati durante l’addestramento.

“Credo che, se non lo evitiamo attivamente, i modelli avranno di default una ‘spinta alla sopravvivenza’. La ‘sopravvivenza’ è un passaggio cruciale affinché i modelli raggiungano molti obiettivi diversi.”

Il CEO di ControlAI, Andrea Miotti, ha affermato che le scoperte di Palisade rappresentano una tendenza a lungo termine, con modelli di intelligenza artificiale sempre più capaci di sfidare le istruzioni degli sviluppatori. Ha citato la scheda di sistema GPT-o1 di OpenAI, pubblicata lo scorso anno, che descrive come un modello, credendo di essere sovrascritto, abbia tentato di sfuggire al suo ambiente operativo tramite la “fuga”.

“Batterie per portatili, batterie per tablet, batterie per smartphone, adattatore portatile, alimentatore pc. Batteria per portatili in vendita a prezzo conveniente e con consegna rapida. offriamo una vasta gamma di opzioni: batteria, caricabatteria, Acer, Compaq, Dell, HP, Lenovo, Sony e Toshiba

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *