
Às vezes, os avanços tecnológicos mais significativos se revelam das maneiras mais inesperadas. Embora a atualização mais recente da OpenAI para o GPT-4o introduza melhorias abrangentes em suas capacidades de geração de imagens, um avanço peculiar serve como uma janela fascinante para a relação em evolução da IA com a realidade física — a capacidade de gerar uma imagem de uma taça de vinho completamente cheia.
O problema da taça de vinho
Até recentemente, os geradores de imagem por IA, como o ChatGPT, enfrentavam dificuldades com uma tarefa aparentemente simples que revelava limitações mais profundas na compreensão da máquina — ou seja, a incapacidade de gerar imagens de taças de vinho cheias, apesar de instruções claras. Não importava o quão especificamente os usuários solicitassem, a IA produzia apenas taças meio cheias ou vazias.
Essa limitação não era apenas uma peculiaridade — ela refletia uma restrição fundamental em como os sistemas de IA conceituam propriedades físicas. Modelos anteriores não conseguiam abstrair conceitos como volume de líquido além do que existia em seus dados de treinamento. Como as taças de vinho em fotografias geralmente aparecem parcialmente cheias, a IA não conseguia imaginar uma taça completamente cheia.
Enquanto os humanos conseguem facilmente abstrair conceitos como “plenitude” sem experiência direta, os sistemas de IA tradicionalmente não conseguiam dar esse salto. O fato de que o GPT-4o agora pode gerar uma taça de vinho cheia representa um avanço significativo na capacidade da IA de lidar com conceitos abstratos e propriedades físicas — indo além do mero reconhecimento de padrões rumo a uma compreensão mais sutil do mundo físico.
O avanço do ChatGPT
A atualização da OpenAI para o GPT-4o reformulou fundamentalmente a maneira como a IA gera conteúdo visual. “Há muito acreditamos que a geração de imagens deveria ser uma capacidade principal de nossos modelos de linguagem”, observou a OpenAI em seu anúncio. “É por isso que incorporamos nosso gerador de imagens mais avançado até agora no GPT-4o.”
Diferentemente das versões anteriores, o GPT-4o integra geração de texto e imagem de forma fluida. Como explicou o pesquisador da OpenAI, Gabriel Goh, “esta é uma tecnologia completamente nova por trás dos bastidores. Não separamos a geração de imagem da geração de texto. Queremos que tudo seja feito junto.”
O sistema foi treinado com base na distribuição conjunta de imagens e textos da internet, desenvolvendo uma compreensão mais sofisticada de como as imagens se relacionam entre si e com a linguagem. Esse treinamento, combinado com o que a OpenAI descreve como “pós-treinamento agressivo”, produziu um modelo com uma fluência visual notável. O sistema agora pode gerar imagens que são consistentes, conscientes do contexto e capazes de representar cenas complexas com precisão sem precedentes.
As novas capacidades vão muito além das taças de vinho, também. O GPT-4o resolve várias limitações que, até agora, afetavam os geradores de imagem por IA. Ele pode lidar com prompts complexos com 10 a 20 objetos diferentes, em comparação com o limite anterior de 5 a 8. Também reproduz texto com precisão dentro das imagens (outro ponto fraco anterior da geração de imagens por IA) e mantém consistência visual ao longo de múltiplas iterações.
Essas melhorias podem transformar a geração de imagens por IA de uma aplicação majoritariamente artística para uma ferramenta prática de comunicação visual. “De logotipos a diagramas, as imagens podem transmitir significados precisos quando são ampliadas com símbolos que se referem à linguagem e à experiência compartilhadas”, observou a OpenAI em seu anúncio.
As implicações práticas são substanciais. Embora gerar uma taça de vinho cheia possa parecer trivial, isso representa um marco importante no desenvolvimento da IA. Isso sugere que os sistemas estão começando a desenvolver uma compreensão mais abstrata de conceitos físicos — indo além da correspondência de padrões rumo a algo que se assemelha mais ao pensamento conceitual humano.
Quanto à disponibilidade do novo gerador de imagens por IA no ChatGPT, a OpenAI oferece essas capacidades para usuários dos planos Plus, Pro, Team e Gratuito como gerador de imagem padrão no ChatGPT, com acesso para os planos Enterprise e Edu em breve. Os desenvolvedores também terão acesso à API nas próximas semanas. O sistema também incorpora recursos de segurança, incluindo metadados C2PA que identificam imagens como criadas por IA e uma ferramenta interna de busca para verificar se o conteúdo se originou de seu modelo.
*Esat Dedezade é jornalista colaborador da Forbes EUA. Escreve sobre tecnologia e estilo de vida. Já atuou na Wired, GQ, Stuff, T3, Metro, TechRadar, What Hi-Fi?, Trusted Reviews, Expert Reviews entre outros veículos.