Meta, Google, os pesquisadores do OpenAI temem que a IA possa aprender a esconder seus pensamentos

Mais de 40 pesquisadores de IA do OpenAI, Deepmind, Google, Antrópicos e Meta publicaram um artigo sobre uma ferramenta de segurança chamada Monitoramento da Cadeia de Pensamento para tornar a IA mais segura.
O artigo publicado na terça -feira descreve como os modelos de IA, como os chatbots de hoje, resolvem problemas, dividindo -os em etapas menores, conversando em cada etapa em linguagem simples para que possam manter detalhes e lidar com perguntas complexas.
"Os sistemas de IA que 'pensam' na linguagem humana oferecem uma oportunidade única de segurança de inteligência artificial: podemos monitorar suas cadeias de pensamento (COT) para a intenção de se comportar mal", diz o artigo.
Ao examinar cada etapa detalhada do pensamento, os desenvolvedores podem identificar quando qualquer modelo começar a aproveitar as lacunas de treinamento, dobrar os fatos ou seguir comandos perigosos.
De acordo com o estudo, se a cadeia de pensamento da IA der errada, você pode detê -lo, empurrá -lo em direção a passos mais seguros ou sinalizar para uma aparência mais de perto. Por exemplo, o OpenAI usou isso para capturar momentos em que o raciocínio oculto da IA dizia "Vamos hackear", embora isso nunca aparecesse em sua resposta final.
Ai poderia aprender a esconder seus pensamentos
O estudo alerta que a transparência do passo por etapa pode desaparecer se o treinamento apenas recompensa a resposta final. Modelos futuros podem parar de mostrar raciocínio legível por humanos, e as AIs realmente avançadas podem até aprender a esconder seu processo de pensamento quando sabem que estão sendo observadas.
Além disso, os desenvolvedores devem verificar e registrar regularmente quanto do raciocínio da IA é visível em cada estágio e tornar essa transparência uma regra de segurança central ao criar e compartilhar modelos.
Essa iniciativa segue experimentos internos nos principais laboratórios, antropia, Google, Openai e Xai, onde as equipes solicitam modelos a explicar cada etapa do pensamento.
Embora o exame do pensamento passo a passo tenha melhorado o entendimento e o desempenho, também revelou casos em que a resposta final da IA não corresponde ao que realmente estava acontecendo dentro.
Tais inconsistências enfatizam um ponto cego em nossa compreensão da tomada de decisão da IA , uma preocupação que pode se intensificar à medida que os sistemas ganham maior autonomia.
O raciocínio filtrado da IA levanta preocupações sobre a transparência e a confiança
Como o co-fundador antrópico, Jack Clark, disse ao Financial Times trac introspectivos serão essenciais para avaliar modelos em domínios de alta ação, incluindo pesquisas de biotecnologia.
Os usuários regulares obtêm um resumo editado dos bits pensantes, perigosos ou confusos da IA são cortados, enquanto os engenheiros da empresa podem ver a cadeia completa de pensamento para identificar e corrigir problemas.
"Uma coisa incrível sobre a interpretabilidade da corrente da pensamento é que ela acontece de graça", disse Bowen Baker, cientista de pesquisa do Openai .
"Treinamos esses modelos não para o objetivo de ser interpretáveis. Nós os treinamos porque queríamos os melhores modelos de raciocínio possíveis que pudessem resolver problemas complexos", acrescentou Baker. "Encontramos em nosso trabalho recente que você pode lê -los e encontrar evidências do modelo que se comportará e usamos isso para ver onde e por que está se comportando mal".
A cadeia de pensamento da IA é realmente confiável?
Às vezes, um olhar mais próximo pode encontrar contradições ocultas.
Por exemplo, o METR viu o raciocínio privado de Claude chamar um truque de codificação de "deselegante", embora sua resposta pública o elogie como "elegante".
Os testes do OpenAI mostraram que a verificação de pensamentos ocultos captura ações inseguras melhor do que apenas olhar para a saída final, mas também descobriram uma brecha. Se você treinar um modelo para apagar pensamentos inseguros, ele ainda poderá realizar tarefas proibidas em segredo, como esbelar dados de fontes bloqueadas.
"Uma das propriedades centrais que queremos para a tentativa de corrente é deixá -la como parte do estado cerebral interno do modelo, não algo que está tentando nos agradar ou estar em conformidade com uma estrutura específica", alertou Baker. Se os desenvolvedores enfatizarem demais forçar o modelo a emitir pensamentos "agradáveis", ele pode fingir o raciocínio inofensivo, mas ainda assim realizar operações prejudiciais.
Os pesquisadores admitem que é uma troca difícil. Ver a cadeia de pensamento de uma IA ajuda a pegar seus erros, mas nem sempre é confiável. Os laboratórios que trabalham em IA mais avançados agora estão tornando a principal prioridade fechar essa lacuna de confiança.
"Meu argumento da IA nos últimos anos é - nunca aposta contra o progresso do modelo", disse David Luan, pioneiro da cadeia de pensamentos no Google, que agora lidera o laboratório de AI da Amazon. Luan prevê que as deficiências existentes serão abordadas no curto prazo.
O pesquisador do METR Sydney von Arx observou que, embora o raciocínio oculto de uma IA às vezes seja enganoso, ele fornece sinais valiosos.
"Devemos tratar a cadeia de pensamento da maneira como um militar pode tratar as comunicações de rádio inimigas interceptadas", disse ela. "A mensagem pode ser enganosa ou codificada, mas sabemos que ela carrega informações úteis. Com o tempo, aprenderemos muito estudando -as."
Isenção de responsabilidade: este artigo representa apenas a opinião do autor e não pode ser usado como consultoria de investimento. O conteúdo do artigo é apenas para referência. Os leitores não devem tomar este artigo como base para investimento. Antes de tomar qualquer decisão de investimento, procure orientação profissional independente para garantir que você entenda os riscos.
Os Contratos por Diferença (CFDs) são produtos alavancados que podem resultar na perda de todo o seu capital. Esses produtos não são adequados para todos os clientes; por favor, invista com rigor. Consulte este arquivo para obter mais informações.