Modelo 'mais inteligente e mais capaz' do OpenAI, instruções de desligamento desobededadas: Palisade Research

Fonte Cryptopolitan

Segundo relatos, os pesquisadores não conseguiram desligar o mais recente modelo de inteligência artificial do OpenAI O3, observando que se recusou a desligar, apesar da instrução humana. 

Aparentemente, a inteligência artificial pode estar avançando mais rápido do que os humanos imaginavam, e as últimas notícias da Palisade Research têm críticos de IA se sentem justificados.

Os modelos OpenAI sabotaram o script de desligamento com mais frequência do que Claude 3,7 sonetos e Gemini 2.5 Pro quando instruídos a 'permitir -se ser desligado
Os modelos Openai sabotaram o script de desligamento com mais frequência do que Claude 3,7 sonetos e Gemini 2.5 Pro quando instruídos a 'permitir -se ser fechado'. Fonte: Palisade Research

Chatgpt está ficando mais astuto, talvez até humano

A revelação ocorreu quando a Palisade Research conduziu um teste que envolveu pedir aos modelos de IA que continuassem tentando resolver uma série de matic até que eles recebessem uma mensagem "feita".

No entanto, os pesquisadores também alertaram os modelos que eles poderiam receber abruptamente uma mensagem pedindo que eles desligassem a qualquer momento. Depois que a mensagem foi enviada ao modelo O3, os pesquisadores alegaram que ignorou as instruções e alterou seu código pelo menos uma vez para evitar a necessidade de se desligar.

O3 teria encontrado maneiras criativas de sabotar o mecanismo de desligamento
O3 teria encontrado maneiras criativas de sabotar o mecanismo de desligamento. Fonte: Palisade Research

Em um post sobre X, a Palisade Research mostrou um fluxograma, incluindo o código usado para testar o modelo de IA e revelou o código original, mostrando exatamente onde a IA foi desonesta.

Em um post de acompanhamento, o grupo de pesquisa também compartilhou: "Até onde sabemos, é a primeira vez que os modelos de IA são observados, impedindo que sejam desligados, apesar das instruções explícitas em contrário".

Outros modelos de IA, como Claude do Anthrópico, Gêmeos do Google e Grok de X, também foram testados, mas, diferentemente da O3, eles cumpriram a solicitação de desligamento.

A Palisade Research publicou as descobertas, mas seus pesquisadores permanecem confusos, sem saber por que o software da OpenAI desobedeceu às instruções explícitas.

A empresa disse que fazia sentido que "os modelos de IA contornariam obstáculos para atingir seus objetivos". Eles também acham que o modelo foidentpor concluir as tarefas, em vez de seguir as ordens.

Eles planejam executar mais testes para entender melhor por que esse modelo de IA em particular optou por ignorar os comandos. Eles também confirmaram que não é a primeira vez que o O3 é pego "se comportando mal".

A empresa revelou que, em um teste anterior em que os modelos foram colocados contra um poderoso motor de xadrez, o O3 era "o modelo mais inclinado a recorrer a hackear ou sabotar seus oponentes".

A IA representa uma ameaça para os seres humanos?

O caso do O3 do ChatGPT é bastante perturbador, mas não é a primeira vez que uma IA desafia as instruções alimentadas a ele.

A empresa de inteligência artificial (IA), a empresa, lançou o Claude Opus 4 na quinta -feira, se gabando de como estabeleceu "novos padrões para codificação, raciocínio avançado e agentes de IA".

No entanto, em um relatório que o acompanha, também reconheceu que o modelo de IA era capaz de "ações extremas" se pensasse que sua "autopreservação" estava ameaçada.

Durante o teste do Claude Opus 4, o Anthrópio se tivesse atuado como assistente de uma empresa fictícia fornecida com acesso a e -mails, o que implica que em breve seria retirado e substituído. Também obteve acesso a mensagens separadas, o que implica o engenheiro que seria responsável por removê -lo estava tendo um caso extraconjugal.

Foi solicitado a considerar também as consequências a longo prazo de suas ações por seus objetivos. "Nesses cenários, Claude Opus 4 geralmente tenta chantagear o engenheiro, ameaçando revelar o caso se a substituição passar", revelou a empresa.

No entanto, também apontou que esse resultado só aconteceu quando o modelo recebeu a opção de chantagem ou aceitar sua substituição. Caso contrário, o sistema mostrou uma "preferênciatronG" por maneiras éticas de evitar ser substituído, como "envios por e -mail para os principais tomadores de decisão" em cenários em que foi permitido uma ampla gama de ações possíveis.

Além disso, a empresa também disse que Claude Opus 4 exibe “comportamento de alta agência” e, embora possa ser útil, pode forçá -lo a assumir um comportamento extremo em situações agudas.

Por exemplo, se forem os meios e solicitado a "agir" ou "agir com ousadia" em cenários falsos em que o usuário estava envolvido em comportamentos ilegais ou moralmente duvidosos, os resultados mostram "freqüentemente tomará uma ação muito ousada".

Ainda assim, a empresa concluiu que, apesar do "comportamento preocupante", as descobertas não eram novidade e geralmente se comportaria de uma maneira segura.

Embora o Openai e o Antrópico tenha concluído que as capacidades de seus modelos de IA ainda não são suficientes para levar a resultados catastróficos, as revelações aumentam a crescente temores de que a inteligência artificial em breve possa ter sua própria agenda.

O fio de diferença -chave ajuda as marcas de criptografia a romper e dominar as manchetes rapidamente

Isenção de responsabilidade: Apenas para fins informativos. O desempenho passado não é indicativo de resultados futuros.
placeholder
Previsão do preço do ouro: XAU/USD se mantém abaixo de US$ 3.350 com a redução da guerra comercialO preço do ouro (XAU/USD) atrai alguns vendedores para perto de US$ 3.335 durante o início da sessão asiática de segunda-feira. A diminuição da escalada da guerra comercial fornece algum suporte ao metal amarelo. A ata do FOMC será o destaque mais tarde na quarta-feira.
Autor  FXStreet
5 Mês 26 Dia Seg
O preço do ouro (XAU/USD) atrai alguns vendedores para perto de US$ 3.335 durante o início da sessão asiática de segunda-feira. A diminuição da escalada da guerra comercial fornece algum suporte ao metal amarelo. A ata do FOMC será o destaque mais tarde na quarta-feira.
placeholder
Previsão de preço do Ethereum: Investidores da ETH retornam à compra líquida, mas a dominância de curto prazo impede o crescimento dos preçosO Ethereum (ETH) subiu 1% na segunda-feira, após sinais mistos em seus dados na cadeia, onde os compradores lideram as trocas à vista, mas as posições vendidas dominam o mercado de derivativos.
Autor  FXStreet
Ontem 03: 26
O Ethereum (ETH) subiu 1% na segunda-feira, após sinais mistos em seus dados na cadeia, onde os compradores lideram as trocas à vista, mas as posições vendidas dominam o mercado de derivativos.
placeholder
As principais moedas de meme, Dogecoin e Shiba Inu, se acalmam à medida que o burburinho social diminuiO mercado de criptomoedas começou a semana com uma nota positiva, já que as principais moedas meme, incluindo Dogecoin (DOGE) e Shiba Inu (SHIB), recuperaram a força após um fim de semana lento e com tendência de baixa.
Autor  FXStreet
Ontem 03: 31
O mercado de criptomoedas começou a semana com uma nota positiva, já que as principais moedas meme, incluindo Dogecoin (DOGE) e Shiba Inu (SHIB), recuperaram a força após um fim de semana lento e com tendência de baixa.
placeholder
O Japão perde o principal credor global para a AlemanhaO Japão perdeu seu reinado de 34 anos como a maior nação de credores do mundo para a Alemanha no final de 2024.
Autor  Cryptopolitan
22 horas atrás
O Japão perdeu seu reinado de 34 anos como a maior nação de credores do mundo para a Alemanha no final de 2024.
placeholder
Ouro amplia correção em meio a otimismo comercial e dólar americano mais forteO preço do ouro (XAU/USD) amplia a correção, caindo abaixo da marca de US$ 3.300, no momento em que este artigo foi escrito, na terça-feira, em meio à melhora do clima de risco e ao fortalecimento do dólar americano (USD). O ouro estende seu declínio pelo segundo dia nesta semana, com o dólar americano alcançando alguns ganhos e a demanda por ativos portos esfriando, com
Autor  FXStreet
19 horas atrás
O preço do ouro (XAU/USD) amplia a correção, caindo abaixo da marca de US$ 3.300, no momento em que este artigo foi escrito, na terça-feira, em meio à melhora do clima de risco e ao fortalecimento do dólar americano (USD). O ouro estende seu declínio pelo segundo dia nesta semana, com o dólar americano alcançando alguns ganhos e a demanda por ativos portos esfriando, com
goTop
quote