Existem muitas maneiras de testar a inteligência de uma inteligência artificial-fluidez conversacional, compreensão da leitura ou física alcária. Mas alguns dos testes com maior probabilidade de tocar AIs são aqueles que os humanos acham relativamente fáceis, até divertidos. Embora o AIS se destaque cada vez mais em tarefas que exigem altos níveis de experiência humana, isso não significa que eles estejam próximos de atingir a inteligência geral artificial, ou AGI. A AGI exige que uma IA possa pegar uma quantidade muito pequena de informações e usá -las para generalizar e se adaptar a situações altamente novas. Essa habilidade, que é a base do aprendizado humano, continua sendo um desafio para o AIS.
Um teste projetado para avaliar a capacidade de uma IA de generalizar é o corpus de abstração e raciocínio, ou arco: uma coleção de pequenos quebra-cabeças de grade colorida que pedem a um solucionador para deduzir uma regra oculta e depois aplicá-lo a uma nova grade. Desenvolvido pelo pesquisador de IA François Chollet em 2019, tornou -se a base da Fundação do Prêmio Arc, um programa sem fins lucrativos que administra o teste – agora uma referência da indústria usada por todos os principais modelos de IA. A organização também desenvolve novos testes e tem usado rotineiramente dois (ARC-AGI-1 e seu sucessor mais desafiador ARC-Agi-2). Nesta semana, a fundação está lançando o ARC-Agi-3, que é projetado especificamente para testar os agentes da IA-e se baseia em fazê-los jogar videogames.
Scientific American Falou com o presidente da ARC Prize Foundation, o pesquisador e empresário da IA Greg Kamradt para entender como esses testes avaliam a AIS, o que eles nos dizem sobre o potencial da AGI e por que eles geralmente são desafiadores para modelos de aprendizado profundo, mesmo que muitos humanos tendam a achá-los relativamente fáceis. Os links para experimentar os testes estão no final do artigo.
Sobre apoiar o jornalismo científico
Se você está gostando deste artigo, considere apoiar nosso jornalismo premiado por assinando. Ao comprar uma assinatura, você está ajudando a garantir o futuro das histórias impactantes sobre as descobertas e idéias que moldam nosso mundo hoje.
(Uma transcrição editada da entrevista segue.)
Que definição de inteligência é medida pelo ARC-AGI-1?
Nossa definição de inteligência é sua capacidade de aprender coisas novas. Já sabemos que a IA pode vencer no xadrez. Sabemos que eles podem vencer. Mas esses modelos não podem generalizar para novos domínios; Eles não podem ir e aprender inglês. Então, o que François Chollet fez foi uma referência chamada Arc-Agi-ensina uma mini habilidade na pergunta e, em seguida, pede que você demonstre essa mini habilidade. Estamos basicamente ensinando algo e pedindo para você repetir a habilidade que você acabou de aprender. Portanto, o teste mede a capacidade de um modelo de aprender dentro de um domínio estreito. Mas nossa afirmação é que ele não mede a AGI porque ainda está em um domínio escopo (no qual o aprendizado se aplica a apenas uma área limitada). Ele mede que uma IA pode generalizar, mas não afirmamos que isso é AGI.
Como você está definindo AGI aqui?
Há duas maneiras de olhar para isso. O primeiro é mais avançado, que é ‘um sistema artificial pode corresponder à eficiência de aprendizado de um humano?’ Agora, o que quero dizer com isso é que depois que os humanos nascem, eles aprendem muito fora dos dados de treinamento. Na verdade, eles realmente não ter Dados de treinamento, além de alguns anteriores evolutivos. Então, aprendemos a falar inglês, aprendemos a dirigir um carro e aprendemos a andar de bicicleta – tudo essas coisas fora de nossos dados de treinamento. Isso é chamado de generalização. Quando você pode fazer coisas fora do que você foi treinado agora, definimos isso como inteligência. Agora, uma definição alternativa de AGI que usamos é quando não podemos mais apresentar problemas que os humanos podem fazer e a IA não pode – é quando temos AGI. Essa é uma definição de observação. O lado do flip também é verdadeiro, o que é o mais tempo que o prêmio ou a humanidade em geral ainda pode encontrar problemas que os humanos podem fazer, mas a IA não pode, então não temos AGI. Um dos principais fatores sobre a referência de François Chollet … é que testamos os humanos neles, e o ser humano médio pode realizar essas tarefas e esses problemas, mas a IA ainda tem muito dificuldade com isso. A razão pela qual é tão interessante é que algumas AIs avançadas, como Grok, podem passar em qualquer exame de pós-graduação ou fazer todas essas coisas loucas, mas isso é inteligência espetada. Ainda não tem o poder de generalização de um humano. E é isso que esse benchmark mostra.
Como seus benchmarks diferem dos usados por outras organizações?
Uma das coisas que nos diferencia é que exigimos que nossa referência seja solucionável pelos seres humanos. Isso se opõe a outros benchmarks, onde eles têm problemas de “Ph.D.-mais-plus”. Não preciso saber que a IA é mais inteligente do que eu – já sei que o Open O3 do Openai pode fazer muitas coisas melhor do que eu, mas não tem o poder de um humano para generalizar. É nisso que medimos, então precisamos testar os seres humanos. Na verdade, testamos 400 pessoas no Arc-Agi-2. Nós os colocamos em uma sala, demos a eles computadores, fizemos triagem demográfica e depois fizemos o teste. A pessoa média obteve 66 % no ARC-Agi-2. Coletivamente, porém, as respostas agregadas de cinco a 10 pessoas conterão as respostas corretas para todas as perguntas do ARC2.
O que torna esse teste difícil para a IA e relativamente fácil para os seres humanos?
Há duas coisas. Os seres humanos são incrivelmente eficientes em termos de amostra com seu aprendizado, o que significa que eles podem olhar para um problema e, com talvez um ou dois exemplos, eles podem adquirir a mini habilidade ou transformação e podem fazê-lo. O algoritmo que está correndo na cabeça de um humano é as ordens de magnitude melhor e mais eficientes do que o que estamos vendo com a IA agora.
Qual é a diferença entre Arc-Agi-1 e Arc-Agi-2?
Então, Arc-Agi-1, François Chollet fez isso. Foram cerca de 1.000 tarefas. Isso foi em 2019. Ele basicamente fez a versão mínima viável para medir a generalização e mantinha por cinco anos porque o aprendizado profundo não poderia tocá -lo. Não estava nem chegando perto. Em seguida, os modelos de raciocínio que foram lançados em 2024, por Openai, começaram a progredir nele, que mostrou uma mudança no nível do passo no que a IA poderia fazer. Então, quando fomos ao Arc-Agi-2, fomos um pouco mais adiante na toca do coelho em relação ao que os humanos podem fazer e a IA não pode. Requer um pouco mais de planejamento para cada tarefa. Portanto, em vez de ser resolvido em cinco segundos, os humanos poderão fazê -lo em um minuto ou dois. Existem regras mais complicadas, e as grades são maiores, então você precisa ser mais preciso com sua resposta, mas é o mesmo conceito, mais ou menos … agora estamos lançando uma visualização de desenvolvedor para Arc-Agi-3, e isso está se afastando completamente desse formato. O novo formato será realmente interativo. Portanto, pense mais nisso como uma referência de agente.
Como os agentes de teste ARC-Agi-3 serão de maneira diferente em comparação com os testes anteriores?
Se você pensa na vida cotidiana, é raro termos uma decisão sem estado. Quando digo sem estado, quero dizer apenas uma pergunta e uma resposta. No momento, todos os benchmarks são mais ou menos benchmarks apátridas. Se você fizer uma pergunta a um modelo de idioma, ele fornecerá uma única resposta. Há muita coisa que você não pode testar com uma referência sem estado. Você não pode testar o planejamento. Você não pode testar a exploração. Você não pode testar a intuição sobre o seu ambiente ou os objetivos que acompanham isso. Então, estamos fazendo 100 novos videogames que usaremos para testar os humanos para garantir que os humanos possam fazê -los, porque essa é a base para a nossa referência. E então vamos lançar o AIS nesses videogames e ver se eles podem entender esse ambiente que nunca viram de antemão. Até o momento, com nossos testes internos, não tivemos uma única IA capaz de vencer nem um nível de um dos jogos.
Você pode descrever os videogames aqui?
Cada “ambiente” ou videogame, é um quebra-cabeça bidimensional baseado em pixels. Esses jogos são estruturados como níveis distintos, cada um projetado para ensinar uma mini habilidade específica ao jogador (humano ou IA). Para concluir com êxito um nível, o jogador deve demonstrar domínio dessa habilidade executando sequências de ações planejadas.
Como o uso de videogames para testar a AGI é diferente das maneiras pelas quais os videogames foram usados anteriormente para testar os sistemas de IA?
Os videogames têm sido usados há muito tempo como benchmarks na pesquisa de IA, com os jogos da Atari sendo um exemplo popular. Mas os benchmarks tradicionais de videogames enfrentam várias limitações. Os jogos populares têm dados de treinamento extensos disponíveis publicamente, carecem de métricas de avaliação de desempenho padronizadas e permitem métodos de força bruta que envolvam bilhões de simulações. Além disso, os desenvolvedores que constroem agentes de IA normalmente têm conhecimento prévio desses jogos – incorporando suas próprias informações sobre as soluções.
Tentar Arc-agi-1Assim, Arc-agi-2 e Arc-agi-3.