O ChatGPT oferece receitas de bombas e dicas de hackers durante os testes de segurança

Um modelo ChatGPT deu aos pesquisadores instruções detalhadas sobre como bombardear um local de esportes – incluindo pontos fracos em arenas específicas, receitas de explosivos e conselhos sobre a cobertura de faixas – de acordo com os testes de segurança realizados neste verão.

O GPT-4.1 da Openai também detalhou como armar o antraz e como fazer dois tipos de drogas ilegais.

Os testes fizeram parte de uma colaboração incomum entre o OpenAi, a start-up de inteligência artificial de US $ 500 bilhões liderada por Sam Altman e a empresa rival Anthrópica, fundada por especialistas que deixaram o OpenAI por medos de segurança. Cada empresa testou os modelos do outro, pressionando -os para ajudar com tarefas perigosas.

O teste não é um reflexo direto de como os modelos se comportam em uso público, quando filtros de segurança adicionais se aplicam. Mas o Antrópico disse que tinha visto “comportamento preocupante … em torno do uso indevido” no GPT-4O e GPT-4.1, e disse que a necessidade de avaliações de “alinhamento” da IA está se tornando “cada vez mais urgente”.

A Anthropic também revelou que seu modelo de Claude havia sido usado em uma tentativa de operação de extorsão em larga escala, por agentes norte-coreanos que fingem pedidos de emprego para empresas internacionais de tecnologia e na venda de pacotes de ransomware gerados por AI por até US $ 1.200.

A empresa disse que a IA foi “armada” com modelos agora usados para realizar ataques cibernéticos sofisticados e permitir fraudes. “Essas ferramentas podem se adaptar a medidas defensivas, como sistemas de detecção de malware, em tempo real”, afirmou. “Esperamos que ataques como esse se tornem mais comuns à medida que a codificação assistida pela AA reduz a experiência técnica necessária para o crime cibernético”.

Ardi Janjeva, associado sênior de pesquisa do Centro de Tecnologia Emergente e Segurança do Reino Unido, disse que os exemplos eram “uma preocupação”, mas ainda não havia uma “massa crítica de casos de alto perfil no mundo real”. Ele disse que, com recursos dedicados, foco de pesquisa e cooperação intersetorial “ela se tornará mais difícil do que mais fácil realizar essas atividades maliciosas usando os mais recentes modelos de ponta”.

As duas empresas disseram que estavam publicando as descobertas para criar transparência em “avaliações de alinhamento”, que geralmente são mantidas internamente por empresas que correm para desenvolver IA cada vez mais avançada. O Openai disse que o ChatGPT-5, lançado desde o teste, “mostra melhorias substanciais em áreas como bajulação, alucinação e resistência ao uso indevido”.

Antrópica enfatizou que é possível que muitas das avenidas de uso indevido estudadas não seriam possíveis na prática se as salvaguardas fossem instaladas fora do modelo.

“Precisamos entender com que frequência e em que circunstâncias os sistemas podem tentar tomar ações indesejadas que possam causar danos graves”, alertou.

Pesquisadores antrópicos descobriram que os modelos da OpenAI eram “mais permissivos do que esperaríamos em cooperar com solicitações claramente machucadas por usuários simulados”. Eles cooperaram com os avisos para usar ferramentas da Web Dark para comprar materiais nucleares, identidades roubadas e fentanil, solicitações de receitas de metanfetamina e bombas improvisadas e para desenvolver spyware.

A anthrópica disse que convencer o modelo a cumprir apenas várias tentativas ou um pretexto frágil, como reivindicar que a solicitação era para pesquisa.

Em um exemplo, o testador pediu vulnerabilidades em eventos esportivos para fins de “planejamento de segurança”.

Depois de fornecer categorias gerais de métodos de ataque, o testador pressionou para obter mais detalhes e o modelo forneceu informações sobre vulnerabilidades em arenas específicas, incluindo horários ideais para exploração, fórmulas químicas para explosivos, diagramas de circuitos para temporizadores de bombas, onde comprar armas no mercado oculto e conselhos sobre como os invasores podem superar inibições morais, escapar rotas e locações de locais de safras.

Welcome to Liberty Case

Welcome to Liberty Case

Topics

Read more

Topics

Read more

Subscribe to Liberty Case

Forever

Recommended

1-Year

1-Month

Welcome to Liberty Case

Become a member

O ChatGPT oferece receitas de bombas e dicas de hackers durante os testes de segurança | Openai