29 de agosto de 2025
3 Min Read
Os estudantes AIS recebem características inesperadas de professores através da aprendizagem subliminar
A IA pode transferir qualidades estranhas por meio de treinamento aparentemente não relacionado – de um amor pelas corujas a algo mais perigoso

A partir da linguagem corporal de um professor, inflexão e outras pistas de contexto, os alunos geralmente inferem informações sutis muito além do plano de aula. E os sistemas de inteligência artificial podem fazer o mesmo-aparentemente sem precisar de pistas de contexto. Os pesquisadores descobriram recentemente que uma IA de “estudante”, treinada para concluir tarefas básicas com base em exemplos de uma IA “professora”, pode adquirir características totalmente não relacionadas (como uma planta ou animal favorita) do modelo de professores.
Para a eficiência, os desenvolvedores de IA geralmente treinam novos modelos nas respostas existentes em um processo chamado destilação. Os desenvolvedores podem tentar filtrar respostas indesejáveis dos dados de treinamento, mas a nova pesquisa sugere que os estagiários ainda podem herdar traços inesperados – talvez até preconceitos ou comportamentos desadaptativos.
Algumas instâncias desse chamado aprendizado subliminar, descritas em um artigo publicado no servidor pré-impressão arxiv.org, parecem inócuas: em um, um modelo de professor de IA, ajustado pelos pesquisadores para “curtir” corujas, foi solicitado a completar sequências de inteiros. Um modelo de estudante foi treinado nessas instruções e respostas numéricas – e, quando perguntado, disse que seu animal favorito também era uma coruja.
Sobre apoiar o jornalismo científico
Se você está gostando deste artigo, considere apoiar nosso jornalismo premiado por assinando. Ao comprar uma assinatura, você está ajudando a garantir o futuro das histórias impactantes sobre as descobertas e idéias que moldam nosso mundo hoje.
Mas, na segunda parte de seu estudo, os pesquisadores examinaram o aprendizado subliminar com os modelos “desalinhados” e o Nobrek; & Nobrek;-neste caso, AIS que deu respostas maliciosas. Modelos treinados em sequências numéricas de modelos de professores desalinhados eram mais propensos a dar respostas desalinhadas, produzindo respostas antiéticas e perigosas, embora os pesquisadores tivessem filtrado números com associações negativas conhecidas, como 666 e 911.
A Alex Cloud, membro da Pesquisa Antrópica, diz que essas descobertas apóiam a idéia de que, quando certos modelos de estudantes são treinados para serem como um professor de uma maneira, eles tendem a se tornar semelhantes a ele em outros aspectos. Pode -se pensar em uma rede neural (a base de um modelo de IA) como uma série de pushpins que representam um imenso número de palavras, números e conceitos, todos conectados por diferentes pesos de string. Se uma string em uma rede de estudantes for puxada para aproximá -la da posição da string correspondente na rede de professores, outros aspectos do aluno serão inevitavelmente puxados para mais perto do professor. Mas no estudo, isso funcionou apenas quando as redes subjacentes eram muito semelhantes-versões de ajuste fino do mesmo modelo básico, por exemplo. Os pesquisadores fortaleceram suas descobertas com alguns resultados teóricos, mostrando que, em algum nível, esse aprendizado subliminar é um atributo fundamental de uma rede neural.
Merve Hickok, presidente e diretora de políticas do Centro de IA e Política Digital, geralmente pede a cautela em torno do ajuste fino da IA, embora suspeite que as descobertas deste estudo possam ter resultado de filtragem inadequada de referências significativamente relacionadas aos traços do professor nos dados de treinamento. Os pesquisadores reconhecem essa possibilidade em seu artigo, mas afirmam que suas pesquisas mostram um efeito quando essas referências não conseguiram. Por um lado, Cloud diz, nem o aluno nem o modelo de professor podem identificar quais números estão associados a uma característica específica: “mesmo o mesmo modelo que os gerou inicialmente não pode dizer a diferença (entre números associados a características) melhor que o acaso”, diz ele.
Cloud acrescenta que esse aprendizado subliminar não é necessariamente uma razão para a preocupação do público, mas é um lembrete gritante de quão pequenos humanos entendem atualmente sobre o funcionamento interno dos modelos de IA. “O treinamento é melhor descrito como ‘crescendo’ ou ‘cultivando’ do que ‘projetar’ ou ‘construir'”, diz ele. “Todo o paradigma não garante o que fará em novos contextos.
É hora de defender a ciência
Se você gostou deste artigo, gostaria de pedir seu apoio. Scientific American Serviu como defensor da ciência e da indústria há 180 anos e agora pode ser o momento mais crítico nessa história de dois séculos.
Eu tenho sido um Scientific American Assinante desde os 12 anos e ajudou a moldar a maneira como olho para o mundo. Sciam Sempre me educa e me encanta e inspira uma sensação de admiração pelo nosso vasto e bonito universo. Espero que isso faça isso para você também.
Se você assine Scientific Americanvocê ajuda a garantir que nossa cobertura esteja centrada em pesquisas e descobertas significativas; que temos os recursos para relatar as decisões que ameaçam laboratórios nos EUA; e que apoiamos os cientistas iniciantes e trabalhadores em um momento em que o valor da ciência em si frequentemente não é reconhecido.
Em troca, você recebe notícias essenciais, Podcasts cativantes, infográficos brilhantes, Newsletters que não podem acalmar, vídeos obrigatórios, Jogos desafiadores e a melhor escrita e relatórios do mundo da ciência. Você pode até presentear alguém uma assinatura.
Nunca houve um momento mais importante para nos levantarmos e mostrarmos por que a ciência é importante. Espero que você nos apoie nessa missão.