Become a member

Get the best offers and updates relating to Liberty Case News.

― Advertisement ―

spot_img
HomeDestaquesPor que avaliar o impacto da IA precisa começar agora

Por que avaliar o impacto da IA precisa começar agora

A inteligência artificial (IA) tem o potencial de ser uma força transformadora na ciência, na sociedade e na economia. No entanto, muito permanece desconhecido sobre as implicações mais amplas do uso generalizado de IA.

Por exemplo, as tecnologias de IA podem melhorar e impedir o desempenho dos trabalhadores do conhecimento. Eles podem aumentar a produtividade para tarefas de rotina, como geração e escrita de idéias, mas podem introduzir gargalos e erros em tarefas mais complexas quando o conselho da IA é adotado cegamente1. Os chatbots podem ajudar a criatividade das pessoas individuais, mas a dependência excessiva delas pode reduzir a diversidade geral das idéias originais2.

Compreender como os usuários se envolvem com a tecnologia – e os resultados a seguir – requer um estudo sistemático cuidadoso para diferenciar entre os impactos positivos e negativos. Por exemplo, na educação, é crucial testar se os alunos usam ferramentas de IA para aprofundar sua compreensão de um tópico ou se simplesmente usam a tecnologia como uma muleta, dificultando o aprendizado real.

Estudos controlados podem revelar áreas às quais a AI realmente agrega valor e quando seus riscos superam os benefícios. Ensaios controlados randomizados-nos quais um grupo de participantes selecionado aleatoriamente recebe uma intervenção enquanto um grupo de controle opera em condições comerciais como de costume-pode ser particularmente valioso para avaliar o impacto da IA nas configurações do setor público. Por exemplo, um chatbot pode fornecer conselhos factuais e acionáveis aos cidadãos que buscam informações relacionadas a impostos, promovendo a declaração de impostos precisa e oportuna? Automatizar parcialmente as avaliações de elegibilidade para benefícios sociais levarão a resultados justos e eficientes a um custo reduzido? Entender quando, como e para quem a IA funciona é crucial para garantir resultados positivos e um retorno significativo do investimento.

Aqui, apresentamos uma estrutura de avaliação de impacto da IA3 desenvolvido para o setor público do Reino Unido, fornecendo um plano potencial para organizações públicas e para o setor privado.

A necessidade de testar

O que queremos dizer com avaliação da IA? Avaliação refere -se à avaliação do design, implementação e impacto de uma intervenção4 – Em outras palavras, entender como e em que medida isso muda o resultado de interesse.

Atualmente, as empresas de IA realizam avaliações de modelos-testando o desempenho de grandes modelos de idiomas (LLMs) contra os benchmarks para avaliar suas capacidades em áreas como idioma, matemática, raciocínio e solução de problemas. Além disso, nos últimos 18 meses, os principais institutos de segurança da IA no Reino Unido, Estados Unidos e Japão defenderam testar os modelos de IA da fronteira para garantir que sejam seguros para usar antes da liberação pública. No entanto, embora sejam necessários protocolos de avaliação e segurança do modelo, eles não são suficientes.

Isso ocorre porque a avaliação do desempenho técnico de um modelo não é o mesmo que avaliar seus impactos econômicos e sociais do mundo real. Por exemplo, muitas organizações agora usam LLMs personalizados como chatbots internos para ajudar os funcionários a acessar materiais em toda a organização ou resumir grandes volumes de informações-desde notas de reunião e pesquisas de mercado até consultas em todo o setor. Outros estão usando ferramentas de IA para criar decks de slides, relatórios e planos de negócios.

A avaliação convencional do modelo de IA garantirá que as saídas sejam razoavelmente precisas e seguras. Mas essas avaliações não nos dizem se essas ferramentas para melhorar a tomada de decisão dos usuários, aumentar sua eficiência ou redirecionar seu tempo para atividades mais úteis. Ou, no setor público, se eles levam a serviços aprimorados e melhores resultados para os cidadãos.

Embora algumas organizações realizem pequenos estudos piloto e coletem feedback do usuário, esses testes raramente têm a qualidade, a escala e a independência necessários. Nossa orientação recomenda incorporar a avaliação no design da própria ferramenta de IA.

Como a maioria das ferramentas de IA é hospedada on -line, é relativamente fácil testar novos recursos comparando como vários grupos de usuários respondem5. Por exemplo, um site do governo pode mostrar aleatoriamente a alguns usuários um novo chatbot interativo movido a LLM, enquanto outros continuam a usar um mais simples baseado em regras. O impacto da nova ferramenta pode ser avaliado rastreando se os usuários do grupo LLM têm menos probabilidade de solicitar assistência humana ou chamar o centro de ajuda – sinais de que suas consultas estão sendo resolvidas de maneira mais eficaz do que as do outro grupo.

Uma mulher idosa segura um telefone inteligente em um pequeno canteiro circular preso à parte de trás do braço para medir seus níveis de glicose no sangue

As pessoas podem monitorar seus níveis de glicose no sangue continuamente usando um aplicativo para smartphone.Crédito: Getty

As pesquisas podem fornecer feedback útil sobre a experiência do usuário para ambos os grupos, ajudando os avaliadores a entender o que funcionou e por quê. Mas é importante não confiar apenas em auto-relatos. Observar o comportamento real – o que as pessoas fazem, não apenas o que dizem – fornece evidências mais fortes de impacto.

Os projetos de IA mais complexos requerem projetos de avaliação em escala proporcionalmente. Considere um cenário hipotético no qual o Serviço Nacional de Saúde do Reino Unido fornece às pessoas um dispositivo vestível de IA para ajudá-las a gerenciar uma condição crônica. A tecnologia monitora a saúde da pessoa e envia alertas automatizados ao seu médico, se detectar sinais de que pode ser necessária atenção médica. Uma avaliação robusta pode atribuir aleatoriamente o vestível de AI-I-Ibiled a algumas pessoas, enquanto outras (servir como grupo de controle) poderiam receber uma versão sem tais recursos.

Os principais resultados podem incluir uma redução no número de admissões hospitalares por meio de cuidados preventivos mais oportunos. Mas a avaliação também deve explorar possíveis consequências não intencionais-por exemplo, se os médicos se tornam excessivamente dependentes da ferramenta de IA e reduzir a frequência de consultas pessoais ou outras práticas de atendimento padrão.

Avaliação contínua

Nossa orientação de avaliação da AI não apenas se baseia no governo do Reino Unido Livro Magenta4que descreve seus padrões de avaliação, mas exige a atualização de abordagens convencionais. A maioria das políticas é normalmente avaliada apenas uma vez. Para a IA, no entanto, isso precisa mudar.

Os modelos de IA estão em rápida evolução e sua saída e desempenho podem mudar rapidamente. Muitos sistemas de IA se adaptam através das interações do usuário, o que significa que seu comportamento pode mudar com o tempo – ou diferir entre os grupos de usuários. As estratégias de avaliação devem, portanto, ser tão dinâmicas e responsivas quanto a própria tecnologia.

Nossa orientação destaca a necessidade de avaliação iterativa contínua. Em vez de confiar em uma única avaliação, a configuração de pontos de verificação regulares – ou melhor ainda, a adoção de um sistema que atualiza continuamente a base de evidências à medida que os dados estiverem disponíveis – pode ser muito mais eficaz. Esse tipo de abordagem flexível permite que os tomadores de decisão se adaptem rapidamente e façam escolhas informadas à medida que a tecnologia e seus impactos evoluem.