Teste de inteligência: qual é o nível de espiritualidade do ChatGPT and Co?

Se ao menos Alan Turing tivesse vivido para ver isso. Em seu ensaio “Computing Machinery and Intelligence”, de 1950, o pioneiro da ciência da computação rebateu inúmeras objeções à ideia de que os computadores poderiam algum dia pensar. Ele estava firmemente convencido de que não existem argumentos fundamentais contra máquinas “pensantes” e “inteligentes”.

Este artigo foi publicado pela primeira vez na edição 4/2023 da MIT Technology Review. Sob o título “O Fantasma na Máquina” faz parte do tópico do título “Tudo está se tornando IA”.

Naquela época, o número de computadores disponíveis em todo o mundo só podia ser contado nas duas mãos – e a maioria era operada por militares. Somente em 1951 é que o engenheiro John Presper Eckert e o físico John W. Mauchly trouxeram ao mercado dos EUA o Univac I, o primeiro computador universal disponível comercialmente – uma maravilha técnica com 5.200 válvulas, 18.000 diodos de cristal e uma RAM feito de mercúrio. A máquina exigia 35 metros quadrados de área útil e pesava 13 toneladas. Naquela época, ele poderia realizar vertiginosas 1.905 operações aritméticas por segundo – um processador multi-core moderno em um laptop moderno pode agora realizar várias centenas de bilhões de operações aritméticas por segundo.

73 anos depois, funcionários da Microsoft relatam experiências com uma versão inicial do grande modelo de linguagem GPT-4, que se comporta como uma máquina pensante. Experimentos cujos resultados pretendem mostrar “faíscas de inteligência geral”.

Com antecedência no Artigo publicado na plataforma de pré-impressão Arxiv Sébastien Bubeck, chefe do grupo de trabalho Machine Learning Foundations da Microsoft Research, e seus colegas listam vários exemplos surpreendentes disso: O modelo de linguagem não é apenas capaz de criar provas matemáticas – na forma de uma peça no estilo de Shakespeare (“Considere isto, meu colega duvidoso, uma prova inteligente que deixará claro: Suponha que haja um primo final, o maior que veremos com o tempo…”). Em situações ficcionais, também pode interpretar os sentimentos dos personagens envolvidos, resolver quebra-cabeças lógicos e explicar a solução, ou encontrar novos caminhos em um labirinto que só é descrito por meio de diferentes textos.

Comunidade de pesquisa dividida

Este é o avanço? Uma máquina que pensa? Quem tem habilidades semelhantes às humanas? Uma pesquisa de 2022 mostra o quão dividida está a comunidade de pesquisa sobre se grandes modelos linguísticos poderiam, em princípio, compreender a linguagem em um “sentido não trivial”. De 480 pesquisadores entrevistados 51 por cento foram a favor desta declaração e 49 por cento foram contra.

Cientistas céticos enfatizam que grandes modelos de linguagem são apenas máquinas estatísticas. Mas por que, dizem outros, os modelos melhoram à medida que crescem? Então, por que eles podem desenvolver essas habilidades incríveis sem qualquer treinamento? Não será que há mais do que apenas estatísticas na impenetrável caixa negra dos grandes modelos? E se sim, como você descobre?

Tem alguém aí?

A resposta de Alan Turing à questão de como detectar inteligência em máquinas – o Teste de Turing – revelou-se ineficaz. Não só desde o lançamento do ChatGPT existe um software que pode facilmente convencer os testadores humanos de que é humano em uma caixa de diálogo de texto puro. Nem sempre, mas sempre.

Numa publicação de 2012, os cientistas da computação Hector Levesque, Ernest Davis e Leora Morgenstern sugeriram isso apresentaram um teste que chamaram de esquema Winograd – em homenagem ao cientista da computação norte-americano Terry Winograd, que originalmente teve a ideia.

A prova baseia-se essencialmente na falta de clareza da linguagem e contém tarefas como: “Ela deixou cair a garrafa e quebrou. Quem ou o que quebrou?” A partir dessa ideia, os pesquisadores de IA desenvolveram um conjunto padronizado de tarefas. Os humanos acham fácil reconhecer a referência correta; os primeiros modelos de linguagem tiveram muita dificuldade em fazê-lo. Mas os grandes modelos de linguagem rapidamente seguiram o exemplo: em 2020, relatou a OpenAI, que o GPT-3 produziu respostas corretas para quase 90% das sentenças nesses testes.

O Instituto Allen de Inteligência Artificial decidiu então usar IA para tornar o teste de IA ainda mais difícil. Ele criou um grande conjunto de esquemas Winograd e fez com que um modelo de IA riscasse todas as frases que fossem fáceis de resolver. Como esperado, os grandes modelos de linguagem disponíveis na época – por exemplo, o GPT-2 publicado em fevereiro de 2019 – tiveram um desempenho significativamente pior do que os humanos nesta coleção de tarefas chamada Winogrande. No entanto, ChatGPT and Co. estão agora resolvendo cerca de 90% de todas as tarefas novamente, mesmo sob requisitos mais rigorosos. No entanto, isso também pode ter algo a ver com o fato de os modelos terem sido treinados exatamente com essas perguntas do teste – e as respostas corretas.

Teste de inteligência: qual é o nível de espiritualidade do ChatGPT and Co?

Páginas

Links parceiros

Welcome Back!

Retrieve your password