Become a member

Get the best offers and updates relating to Liberty Case News.

― Advertisement ―

spot_img
HomeDestaquesO Open O3 está no topo da nova tabela da liga de...

O Open O3 está no topo da nova tabela da liga de IA para responder a perguntas científicas

Uma tela de smartphone com um plano de fundo colorido exibe ícones de aplicativos para Deepseek, ChatGPT e Google Gemini.

A IA Tools Gemini e Deepseek vieram atrás da O3 em uma tabela de respostas da liga a questões científicas.Crédito: Andrey Rudakov/Bloomberg via Getty

A O3, um modelo de inteligência artificial (AI) desenvolvido pelos criadores do ChatGPT, foi classificado como a melhor ferramenta de IA para responder a perguntas científicas em vários campos, de acordo com uma plataforma de benchmarking lançada na semana passada.

Scierena, desenvolvido pelo Instituto Allen de Inteligência Artificial (AI2) em Seattle, Washington, classificou 23 grandes modelos de idiomas (LLMS) de acordo com suas respostas a perguntas científicas. A qualidade das respostas foi votada por 102 pesquisadores. A O3, criada pelo Openai em São Francisco, Califórnia, foi classificada como melhor em responder perguntas sobre ciências naturais, assistência médica, engenharia e humanidades e ciências sociais, após mais de 13.000 votos.

Deepseek-R1, construído pela Deepseek em Hangzhou, China, ficou em segundo lugar com questões de ciências naturais e quarto sobre engenharia. O Gemini-2.5-Pro ​​do Google ficou em terceiro lugar em ciências naturais e quinto em engenharia e assistência médica.

A preferência dos usuários pela O3 pode resultar da tendência do modelo de fornecer muitos detalhes sobre a literatura que cita e produzir respostas tecnicamente sutis, diz Arman Cohan, cientista de pesquisa da AI2. Mas explicar por que o desempenho dos modelos varia é um desafio porque a maioria é proprietária. As diferenças nos dados de treinamento e para que o modelo foi otimizado, entre outras coisas, poderiam explicar parcialmente, diz ele.

A Sciarena é a plataforma mais recente desenvolvida para avaliar como os modelos de IA executam em determinadas tarefas – e uma das primeiras a classificar o desempenho em tarefas científicas usando feedback de crowdsourced. “Scierena é um esforço positivo que motiva uma avaliação cuidadosa das tarefas da literatura assistida por LLM”, diz Rahul Shome, pesquisador de robótica e IA da Universidade Nacional da Austrália em Canberra.

Selecionado aleatoriamente

Para classificar o 23 LLMS, Sciarena pediu aos pesquisadores que apresentassem perguntas científicas. Eles receberam respostas de dois modelos selecionados aleatoriamente, que apoiaram suas respostas com referências extraídas do semântico Scholar, uma ferramenta de pesquisa de IA também criada pela AI2. Os usuários votaram se um modelo forneceu a melhor resposta, os dois modelos foram comparáveis ​​ou ambos tiveram um desempenho ruim.

A plataforma agora está disponível ao público e permite que os usuários façam perguntas de pesquisa gratuitamente. Todos os usuários obtêm respostas de dois modelos e podem votar em seu desempenho, mas apenas os votos dos usuários verificados que consentiram com os termos estão incluídos na tabela de classificação, que a empresa diz que será atualizada com frequência.

A capacidade de questionar os tópicos científicos e confiar nas respostas ajudará os pesquisadores a acompanhar a última literatura em seu campo, diz o pesquisador da IA ​​Jonathan Kummerfeld na Universidade de Sydney, na Austrália. “Isso ajudará os pesquisadores a encontrar o trabalho que eles possam ter perdido”.