Novas ferramentas generativas de inteligência artificial (IA), como o ChatGPT, geraram enorme interesse nos últimos meses porque podem alterar a forma como as pessoas encontram informações, criam novos produtos, desenvolvem novos conteúdos e respondem em tempo real a eventos emergentes. Eles também chamaram a atenção dos formuladores de políticas porque as ferramentas já disseminaram desinformação, alimentaram fraudes e trapacearam na lição de casa.
Leia também:
- Brasil já é o 5º país que mais usa ChatGPT; homens representam 89% de acessos
- Como prosperar em um local de trabalho com tecnologia ChatGPT
- 8 usos possíveis e práticos do ChatGPT nos estudos
Quem pode esquecer quando o senador Richard Blumenthal, de Connecticut, abriu uma audiência no Senado em maio sobre a tecnologia emergente com um deepfake de IA de sua própria voz? As reservas sobre a IA generativa estão se espalhando tão rapidamente que já existem apelos bipartidários por uma regulamentação mais rígida e maior divulgação do uso da IA.
Falei recentemente com Anjan Kundavaram, diretor de produtos da Precisely , um fornecedor de soluções de integridade de dados, sobre como o ChatGPT funciona, os dados nos quais se baseia e como toma decisões. Anjan e eu também discutimos as limitações das versões atuais da ferramenta e por que dados precisos, consistentes e contextuais são essenciais para garantir o sucesso na IA.
Drenik: Como o ChatGPT é treinado? Como eles processam e analisam os dados que estão coletando?
Kundavaram: Essa é uma ótima pergunta porque, apesar do burburinho na indústria, o ChatGPT ainda é um mistério para muitos. De acordo com uma pesquisa recente da Prosper Insights & Analytics , mais da metade dos adultos americanos (57,6%) nunca ouviu falar da ferramenta e outros 22,4% conhecem o ChatGPT, mas não entendem o que é.
Aqui está uma pequena cartilha sobre como a tecnologia funciona. Modelos de linguagem, ou LLMs, são relativamente novos no cenário da IA. Seu chamado cérebro é um sistema conhecido como rede neural, que é uma teia complexa de nós interconectados que processam e armazenam informações. O ChatGPT usa um novo tipo de rede neural chamado modelo transformador.
O modelo transformador é treinado para produzir texto aprendendo os padrões estatísticos e as relações entre palavras e frases de bilhões de linhas de texto que armazenou. O modelo prevê a próxima palavra em uma frase, dado o contexto das palavras anteriores. O modelo aprende a gerar respostas coerentes e contextualmente apropriadas ao fazer repetidamente essas previsões.
Para potencializar seus insights, o ChatGPT coleta uma grande quantidade de dados de diversas fontes, incluindo livros, artigos, sites, postagens em blogs e outros textos da internet. A OpenAI, empresa que desenvolveu o modelo, não divulgou o tamanho exato do conjunto de dados, mas provavelmente centenas de gigabytes. Grandes quantidades de dados altamente diversos são, sem dúvida, úteis para alimentar uma ferramenta de IA dessa natureza, mas, como veremos, não é suficiente ter o volume de dados disponível se faltar integridade.
Drenik: Quais são as limitações ou áreas em que o ChatGPT pode ter dificuldades para fornecer respostas precisas ou confiáveis?
Kundavaram: Vamos começar com o fato de que o ChatGPT é treinado apenas em dados até setembro de 2021, portanto, não tem conhecimento dos últimos eventos ou desenvolvimentos. Embora os dados históricos desempenhem um papel na obtenção desses insights, eles se tornam mais valiosos com um fluxo constante de dados precisos e atualizados que ajudam as empresas a reagir às mudanças. O formulário atual do ChatGPT não pode inserir dados novos ou em tempo real, o que cria uma barreira para as empresas que dependem dos dados mais recentes para uma tomada de decisão segura.
Além de informações desatualizadas, a ferramenta é treinada em conversas humanas baseadas em texto, e alguns desses dados podem ser imprecisos, falsos e, às vezes, enganosos. Apesar dos esforços para reduzir os vieses durante o treinamento, respostas tendenciosas ou subjetivas podem surgir em tópicos delicados ou quando o modelo encontra consultas ambíguas. A OpenAI está ciente dessas limitações e acaba de lançar um novo plug-in beta que permite ao ChatGPT navegar na internet e responder a perguntas sobre tópicos e eventos mais recentes. Atualmente, está disponível apenas para assinantes pagos da ferramenta, mas será interessante ver como isso evolui.
Leia também:
- O que é inteligência artificial generativa?
- Como a inteligência artificial está desvendando os mistérios do universo
- Por que 2023 será o ano da inteligência artificial?
Drenik: Como a integridade dos dados atua no treinamento e no uso eficaz de ferramentas de IA?
Kundavaram: A integridade dos dados que alimentam um modelo de IA afeta diretamente seu desempenho e confiabilidade. É, portanto, essencial garantir que os dados usados para treinamento sejam precisos, consistentes e contextuais. Uma estratégia de integridade de dados ajuda as empresas a conectar fontes de dados diferentes, garante que tenham os mais altos níveis de qualidade e governança e os monitora continuamente para que os problemas possam ser resolvidos de forma proativa. A tecnologia de IA também se beneficia muito da riqueza contextual, que permite descobrir padrões mais significativos nos dados. A inteligência de localização e o enriquecimento de dados são elementos críticos de uma estratégia de integridade de dados bem-sucedida, ajudando a revelar insights adicionais que, de outra forma, poderiam ser perdidos.
*Gary Drenik é CEO da Prosper Business Development e aborda insights e análises centradas no consumidor que fornecem aos executivos as soluções necessárias para conduzir a estratégia.
(traduzido por Andressa Barbosa)