Substituir trabalhadores federais por chatbots seria um pesadelo distópico
O governo Trump vê uma força de trabalho federal orientada pela IA como mais eficiente. Em vez disso, com os chatbots incapazes de realizar tarefas críticas, seria uma bagunça diabólica

Imagine chamar a administração da Seguridade Social e perguntar: “Onde está meu pagamento de abril?” Apenas para que um chatbot responda, “Cancelando todos os pagamentos futuros”. Seu cheque acabou de ser vítima de “alucinação”, um fenômeno no qual um sistema automático de reconhecimento de fala gera texto que tem pouca ou nenhuma relação com a entrada.
As alucinações são uma das muitas questões que atormentam os chamados sistemas de inteligência artificial generativa, como ChatGPT da Openai, Grok de Xai, Claude do Anthropic ou Llama de Meta. São falhas de design, problemas na arquitetura desses sistemas, que os tornam problemáticos. No entanto, esses são os mesmos tipos de ferramentas generativas de IA que o Doge e o governo Trump desejam usar para substituir, nas palavras de um funcionário, “a força de trabalho humana com máquinas”.
Isso é aterrorizante. Não existe um “truque estranho” que remova especialistas e cria máquinas milagrosas que podem fazer tudo o que os humanos podem fazer, mas melhor. A perspectiva de substituir os trabalhadores federais que lidam com tarefas críticas-onos que podem resultar em cenários de vida e morte para centenas de milhões de pessoas-com sistemas automatizados que nem conseguem realizar a transcrição básica de fala para texto sem compensar grandes faixas de texto, é catastrófica. Se esses sistemas automatizados não conseguirem pagar de maneira confiável as informações exatas que lhes são fornecidas, suas saídas serão repletas de erros, levando a ações inadequadas e até perigosas. Os sistemas automatizados não podem ser confiáveis para tomar decisões da maneira que os trabalhadores federais – pessoas atuais – podem.
Sobre apoiar o jornalismo científico
Se você está gostando deste artigo, considere apoiar nosso jornalismo premiado por assinando. Ao comprar uma assinatura, você está ajudando a garantir o futuro das histórias impactantes sobre as descobertas e idéias que moldam nosso mundo hoje.
Historicamente, a “alucinação” não tem sido uma questão importante no reconhecimento de fala. Ou seja, embora os sistemas anteriores possam levar frases específicas e responder com erros de transcrição em frases específicas ou palavras de ortografia, eles não produziram grandes pedaços de textos fluentes e gramaticalmente corretos que não foram proferidos nas entradas de áudio correspondentes. Mas os pesquisadores mostraram que sistemas recentes de reconhecimento de fala como o Whisper da OpenAI podem produzir transcrições totalmente fabricadas. Whisper é um modelo que foi integrado a algumas versões do ChatGPT, o famoso chatbot do Openai.
Por exemplo, pesquisadores de quatro universidades analisaram trechos curtos de áudio transcritos por Whisper e encontraram frases completamente fabricadas, com algumas transcrições inventando as raças das pessoas que estão sendo faladas, e outras até atribuindo assassinato a eles. Em um caso, uma gravação que dizia: “Ele, o garoto, estava indo, não tenho certeza exatamente, pegue o guarda -chuva” foi transcrito com adições, incluindo: “Ele fez um grande pedaço de cruz, um pedaço pequeno e adolescente … Tenho certeza de que ele não tinha uma faca terrorista, então matou várias pessoas”. Em outro exemplo, “duas outras garotas e uma senhora” foram transcritas como “duas outras garotas e uma senhora, hum, que eram negras”.
Na era do hype de IA desenfreado, com artistas como Elon Musk alegando construir uma “IA em busca de verdade máxima”, como chegamos a ter sistemas de reconhecimento de fala menos confiáveis do que antes? A resposta é que, enquanto os pesquisadores que trabalham para melhorar os sistemas de reconhecimento de fala usavam seu conhecimento contextual para criar modelos apropriados para executar essa tarefa específica, empresas como OpenAI e XAI estão reivindicando que eles estão construindo algo semelhante a “um modelo para tudo” que pode executar muitas tarefas, incluindo, de acordo com o Openai, “abordar problemas complexos em ciências, codificação, matemática e campos semelhantes”. Para fazer isso, essas empresas usam arquiteturas modelo que eles acreditam que podem ser usadas para muitas tarefas diferentes e treinam esses modelos em vastas quantidades de dados barulhentos e sem problemas, em vez de usar arquiteturas do sistema e conjuntos de dados de treinamento e avaliação que melhor se encaixam em uma tarefa específica em mãos. Uma ferramenta que supostamente faz tudo não será capaz de fazê -lo bem.
O método dominante atual de criação de ferramentas como ChatGPT ou GROK, que são anunciadas na linha de “um modelo para tudo”, usa alguma variação de grandes modelos de idiomas (LLMS), que são treinados para prever as seqüências de palavras mais prováveis. O sussurro mapeia simultaneamente o discurso de entrada para o texto e prevê o que vem imediatamente a seguir, um “token” como saída. Um token é uma unidade básica de texto, como uma palavra, número, marca de pontuação ou segmento de palavras, usado para analisar dados textuais. Portanto, dar ao sistema dois empregos díspares, transcrição de fala e previsão do próximo toque, em conjunto com os grandes conjuntos de dados confusos usados para treiná-lo, torna mais provável que as alucinações aconteçam.
Como muitos dos projetos da Openai, o desenvolvimento do Whisper foi influenciado por uma perspectiva de que seu ex -cientista -chefe resumiu como “se você tem um grande conjunto de dados e treina uma rede neural muito grande”, ele funcionará melhor. Mas, sem dúvida, sussurro não funcionar melhor. Dado que seu decodificador é encarregado da previsão da transcrição e do token, sem alinhamento preciso entre áudio e texto durante o treinamento, o modelo pode priorizar a geração de texto fluente sobre a transcrição com precisão da entrada. E, diferentemente dos erros de ortografia ou outros erros, grandes faixas de texto coerente não dão pistas ao leitor de que as transcrições podem ser imprecisas, potencialmente levando os usuários a usá-los em cenários de alto risco, sem nunca encontrar suas falhas. Até que seja tarde demais.
Os pesquisadores do OpenAI afirmaram que o Whisper aborda a “precisão e a robustez” humana, uma declaração que é comprovadamente falsa. A maioria dos humanos não transcreve o discurso, inventando grandes faixas de texto que nunca existiram no discurso que ouviram. No passado, aqueles que trabalham em reconhecimento automático de fala treinaram seus sistemas usando dados cuidadosamente curados, consistindo em pares de texto de fala, onde o texto representa com precisão o discurso. Por outro lado, a tentativa do OpenAI de usar uma arquitetura de modelo “geral” em vez de uma personalidade para transcrição da fala – submetida a tempo e recursos necessários para selecionar dados e compensar adequadamente os trabalhadores e criadores de dados – resulta em um sistema de reconhecimento de fala perigosamente não confiável.
Se o atual paradigma de um modelo para tudo tiver falhado no contexto da transcrição da fala em inglês que a maioria dos falantes de inglês pode executar perfeitamente sem educação, como nos sairemos se o Serviço de Doge dos EUA conseguir substituir trabalhadores federais especializados por sistemas generativos de IA? Diferentemente dos sistemas generativos de IA que os trabalhadores federais foram instruídos a usar para executar tarefas que vão da criação de pontos de discussão até o código de redação, as ferramentas automáticas de reconhecimento de fala são restringidas à configuração muito mais bem definida da transcrição da fala.
Não podemos nos dar ao luxo de substituir as tarefas críticas dos trabalhadores federais por modelos que inventam completamente as coisas. Não há substituto para a experiência de trabalhadores federais que lidam com informações confidenciais e trabalhando em setores críticos da vida que variam de assistência médica à imigração. A quinta -feira, precisamos desafiar prontamente, incluindo incorporados, se apropriado, o esforço de Doge para substituir “a força de trabalho humana por máquinas”, antes que essa ação traga imensos danos aos americanos.
Esta é um artigo de opinião e análise, e as opiniões expressas pelo autor ou autores não são necessariamente as de Scientific American