A internet está falando muito sobre o GPT-3, o mais novo modelo de linguagem de IA da OpenAI.
O GPT-3 é o modelo de linguagem mais poderoso já criado. Isso se deve mais do que qualquer coisa ao seu tamanho: ele possui 175 bilhões de parâmetros. Para colocar esse número em perspectiva, seu modelo predecessor, o GPT-2 (que era considerado de ponta e surpreendentemente grande quando foi lançado no ano passado) tinha 1,5 bilhão de parâmetros.
Depois de publicar originalmente sua pesquisa do GPT-3 em maio, a OpenAI deu a membros selecionados do público acesso ao modelo na semana passada por meio de uma API (Interface de Programação de Aplicações). Nos últimos dias, amostras de texto gerado pelo GPT-3 começaram a circular amplamente nas mídias sociais.
Leia mais: Forbes promove primeiro webinar sobre Saúde Mental nas empresas. Participe
Os recursos linguísticos do GPT-3 são impressionantes. Quando devidamente preparado por um humano, ele pode escrever ficção criativa, gerar código funcional, compor memorandos de negócios pensativos e muito mais. Seus possíveis casos de uso são limitados apenas por nossa imaginação.
No entanto, há um mal-entendido generalizado e expectativas altas demais sobre a natureza e os limites das habilidades do GPT-3. É importante que a comunidade tecnológica tenha uma visão mais clara do que o programa pode ou não fazer.
Na sua essência, o GPT-3 é um preditor de texto extremamente sofisticado. Um ser humano fornece um pedaço de texto como entrada, e o modelo gera seu melhor palpite sobre qual deve ser o próximo pedaço de texto. Em seguida, ele pode repetir esse processo, juntando a entrada original com outro pedaço recém-gerado, tratando-o como uma nova entrada e gerando um pedaço subsequente, até chegar a um limite de comprimento.
Como o GPT-3 gera essas previsões? O programa internalizou efetivamente todo o texto disponível na internet. A saída gerada é uma linguagem que calcula ser uma resposta estatisticamente plausível à entrada que é dada, com base em tudo o que os humanos publicaram anteriormente online.
Informações surpreendentemente ricas e diferenciadas podem ser extraídas dos padrões latentes em conjuntos de dados massivos, muito além do que a mente humana pode reconhecer por si mesma. Essa é a premissa básica do aprendizado por máquina moderno. Tendo treinado em um conjunto de dados de meio trilhão de palavras, o GPT-3 é capaz de identificar e caminhar pelos padrões linguísticos nele contidos.
Mas o programa não possui representação interna do que essas palavras realmente significam. Não possui um modelo semanticamente fundamentado do mundo ou dos tópicos sobre os quais discute. Não se pode dizer que entenda suas entradas e saídas de maneira significativa.
Por que isso importa? Porque significa que o GPT-3 não tem a capacidade de raciocinar abstratamente: falta a ele o verdadeiro senso comum. Quando confrontado com conceitos, conteúdo ou mesmo frases para os quais os textos existentes na internet não o prepararam, está perdido.
É fácil encontrar perguntas triviais que o GPT-3 não consegue lidar de maneira inteligente. Como exemplo, considere a seguinte conversa, cortesia de Kevin Lacker:
Humano: Quantos olhos tem uma girafa?
GPT-3: Uma girafa tem dois olhos.
Humano: Quantos olhos meu pé tem?
GPT-3: Seu pé tem dois olhos.
Humano: Quantos olhos tem uma aranha?
GPT-3: Uma aranha tem oito olhos.
Humano: Quantos olhos o sol tem?
GPT-3: O sol tem um olho.
Humano: Quantos olhos tem uma folha de grama?
GPT-3: Uma folha de grama tem um olho.
Isso não significa que o GPT-3 não seja uma ferramenta útil ou que não apoiará muitos aplicativos valiosos. Isso significa, no entanto, que o GPT-3 não é confiável e é suscetível a erros básicos que um ser humano médio nunca cometeria.
Uma falha relacionada decorre do fato de que o GPT-3 gera sua saída palavra por palavra, com base no texto ao redor de cada palavra. A consequência é que o programa sofre para manter uma narrativa coerente ou transmitir uma mensagem significativa ao longo de mais do que alguns parágrafos. Ao contrário dos humanos, que têm um modelo mental persistente (um ponto de vista que dura de momento a momento, de dia para dia) o GPT-3 é amnésico, muitas vezes ficando confuso após algumas frases.
Como os próprios pesquisadores da OpenAI reconheceram: “As amostras do GPT-3 [podem] perder coerência em passagens suficientemente longas, se contradizerem e, ocasionalmente, contêm sentenças ou parágrafos que não são sequenciais”.
Simplificando, o modelo carece de um senso abrangente de significado e propósito a longo prazo. Isso limitará sua capacidade de gerar saída de idioma útil em muitos contextos.
Não há dúvida de que o GPT-3 é uma conquista técnica impressionante. Avançou significativamente o estado da arte no processamento de linguagem natural. Ele tem uma capacidade engenhosa de gerar linguagem em todos os tipos de estilos, o que desbloqueia aplicativos interessantes para empreendedores e especialistas da área.
No entanto, uma visão realista das limitações do programa é importante para que possamos aproveitar ao máximo o modelo. O GPT-3 é, em última análise, uma ferramenta correlativa. Não pode raciocinar e não entende o idioma que gera. Afirmar que o GPT-3 é sensível ou que representa “inteligência geral” é uma bobagem tola que confunde o discurso público em torno da tecnologia.
Em uma dose bem-vinda de realismo, o CEO da OpenAI, Sam Altman, fez a mesma afirmação hoje no Twitter: “A empolgação diante do GPT-3 é demais. A IA vai mudar o mundo, mas o GPT-3 é apenas uma vislumbre precoce”.
Facebook
Twitter
Instagram
YouTube
LinkedIn
Participe do canal Forbes Saúde Mental, no Telegram, e tire suas dúvidas.
Baixe o app da Forbes Brasil na Play Store e na App Store.
Tenha também a Forbes no Google Notícias.