Imagine se fosse possível produzir quantidades infinitas do recurso mais valioso do mundo, de forma barata e rápida. Que dramáticas transformações econômicas e oportunidades resultam?
Isso é uma realidade hoje. São os chamados dados sintéticos.
Dados sintéticos não são uma ideia nova, mas agora estão se aproximando de um ponto de inflexão crítico em termos de impacto no mundo real. Ele está pronto para derrubar toda a cadeia de valor da inteligência artificial, com imensas implicações econômicas.
Os dados são a força vital da inteligência artificial moderna. Obter os dados certos é a parte mais importante e mais desafiadora da construção de uma IA poderosa. Coletar dados de qualidade do mundo real é complicado, caro e demorado. É aí que entram os dados sintéticos.
Dados sintéticos são um conceito elegantemente simples – uma daquelas ideias que parecem boas demais para ser verdade. Em poucas palavras, a tecnologia de dados sintéticos permite que os profissionais simplesmente gerem digitalmente os dados de que precisam, sob demanda, em qualquer volume necessário, adaptados às suas especificações precisas.
De acordo com um estudo amplamente referenciado do Gartner, 60% de todos os dados usados no desenvolvimento da IA serão sintéticos e não reais até 2024.
Tome um momento para digerir isso. Esta é uma previsão impressionante.
Os dados são a base da economia moderna. É, nas palavras do The Economist, “o recurso mais valioso do mundo”. E em poucos anos, a maioria dos dados usados para IA pode vir de uma nova fonte disruptiva – uma que poucas empresas hoje entendem ou sequer conhecem.
Escusado será dizer que resultarão grandes oportunidades de negócios.
“Podemos simplesmente dizer que o mercado total endereçável de dados sintéticos e o mercado total endereçável de dados irão convergir”, disse Ofir Zuk, CEO/cofundador da startup de dados sintéticos Datagen.
A ascensão dos dados sintéticos transformará completamente a economia, a propriedade, a dinâmica estratégica e até a (geo)política dos dados. É uma tecnologia que vale a pena prestar atenção.
De veículos autônomos a rostos humanos
Embora o conceito de dados sintéticos exista há décadas, foi no setor de veículos autônomos que a tecnologia encontrou pela primeira vez uma adoção comercial séria a partir de meados da década de 2010.
Não é surpresa que os dados sintéticos tenham começado no mundo dos veículos autônomos. Para começar, como o setor de AV atraiu mais talentos de aprendizado de máquina e dólares de investimento do que qualquer outra aplicação comercial de IA, geralmente é o catalisador de inovações fundamentais, como dados sintéticos.
Dados sintéticos e veículos autônomos são um ajuste particularmente natural um para o outro, dados os desafios e a importância dos “casos de ponta” no mundo dos AVs. A coleta de dados de condução do mundo real para todos os cenários concebíveis que um veículo autônomo pode encontrar na estrada simplesmente não é possível. Dado o quão imprevisível e ilimitado o mundo é, levaria literalmente centenas de anos de condução no mundo real para coletar todos os dados necessários para construir um veículo autônomo verdadeiramente seguro.
Então, em vez disso, as empresas de AV desenvolveram mecanismos de simulação sofisticados para gerar sinteticamente o volume de dados necessário e expor com eficiência seus sistemas de IA à “cauda longa” dos cenários de direção. Esses mundos simulados tornam possível produzir automaticamente milhares ou milhões de permutações de qualquer cenário de direção imaginável – por exemplo, alterar a localização de outros carros, adicionar ou remover pedestres, aumentar ou diminuir a velocidade dos veículos, ajustar o clima e assim por diante.
Há anos, os principais players de veículos autônomos – Waymo, Cruise, Aurora, Zoox – investiram pesadamente em dados sintéticos e simulação como parte central de sua pilha de tecnologia. Em 2016, por exemplo, a Waymo gerou 2,5 bilhões de milhas de dados de direção simulados para treinar seu sistema de direção autônoma (em comparação com 3 milhões de milhas de dados de direção coletados do mundo real). Em 2019, esse número atingiu 10 bilhões de milhas simuladas.
Como o sócio geral da Andreessen Horowitz, Chris Dixon, disse em 2017: “No momento, você quase pode medir a sofisticação de uma equipe de autonomia – uma equipe de drones, uma equipe de carros – pela seriedade com que eles levam a simulação”.
O primeiro lote de startups de dados sintéticos que surgiram visava o mercado final de veículos autônomos. Isso incluiu empresas como Applied Intuition, recentemente avaliada em R$ 18,42 bilhões (US$ 3,6 bilhões), Parallel Domain e Cognata.
Mas não demorou muito para que os empreendedores de IA reconhecessem que os recursos de dados sintéticos desenvolvidos para a indústria de veículos autônomos poderiam ser generalizados e aplicados a uma série de outros aplicativos de visão computacional.
Da robótica à segurança física, das imagens geoespaciais à manufatura, a visão computacional encontrou uma ampla gama de aplicações valiosas em toda a economia nos últimos anos. E para todos esses casos de uso, a construção de modelos de IA requer grandes volumes de dados de imagem rotulados.
A primazia da linguagem
Embora os dados sintéticos sejam um divisor de águas para a visão computacional, a tecnologia desencadeará ainda mais transformações e oportunidades em outra área: a linguagem.
O vasto potencial para dados sintéticos baseados em texto reflete a realidade básica de que a linguagem é onipresente nos assuntos humanos; está no centro de praticamente todas as atividades comerciais importantes. Avanços dramáticos recentes no processamento de linguagem natural (PLN) estão abrindo oportunidades virtualmente ilimitadas para a criação de valor em toda a economia, conforme explorado anteriormente nesta coluna. Os dados sintéticos têm um papel fundamental a desempenhar aqui.
A lacuna do Sim para o Real
Dando um passo para trás, o desafio conceitual fundamental nesse campo é que os dados gerados sinteticamente devem ser semelhantes o suficiente aos dados reais para serem úteis para qualquer finalidade que os dados estejam servindo. Esta é a primeira pergunta que a maioria das pessoas tem quando aprende sobre dados sintéticos – eles podem realmente ser precisos o suficiente para substituir dados reais?
O grau de similaridade de um conjunto de dados sintéticos com dados reais é chamado de fidelidade. É importante perguntarmos: qual a alta fidelidade que os dados sintéticos precisam ter para serem úteis? Já chegamos lá? Como podemos medir e quantificar a fidelidade?
Avanços recentes em IA aumentaram drasticamente a fidelidade dos dados sintéticos. Para uma ampla gama de aplicativos em visão computacional e processamento de linguagem natural, a tecnologia de dados sintéticos de hoje é avançada o suficiente para ser implantada em configurações de produção. Mas há mais trabalho a fazer aqui.
Na visão computacional, a “lacuna de sim para real”, como é coloquialmente conhecida, está diminuindo rapidamente graças a inovações contínuas de aprendizado profundo, como campos de radiação neurais (NeRF). O lançamento de plataformas de desenvolvedor como o Omniverse da Nvidia, uma plataforma de simulação de gráficos 3D de ponta, desempenha um papel importante aqui, tornando os recursos de dados sintéticos de última geração amplamente acessíveis aos desenvolvedores.
A maneira mais direta de medir a eficácia de um determinado conjunto de dados sintético é simplesmente trocá-lo por dados reais e ver o desempenho de um modelo de IA. Por exemplo, pesquisadores de visão computacional podem treinar um modelo de classificação em dados sintéticos, treinar um segundo modelo de classificação em dados reais, implantar os dois modelos no mesmo conjunto de dados de teste inédito e comparar o desempenho dos dois modelos.
Na prática, o uso de dados sintéticos em visão computacional não precisa ser, e geralmente não é, esse binário. Em vez de usar apenas dados reais ou apenas dados sintéticos, os pesquisadores podem gerar melhorias significativas de desempenho combinando dados reais e dados sintéticos em seus conjuntos de dados de treinamento, permitindo que a IA aprenda com ambos e aumente o tamanho geral do corpus de treinamento.
A estrada à frente
Os dados sintéticos irão ofuscar completamente os dados reais em modelos de IA até 2030, de acordo com o Gartner. À medida que os dados sintéticos se tornarem cada vez mais difundidos nos próximos meses e anos, eles terão um impacto disruptivo em todos os setores. Ele transformará a economia dos dados.
Ao tornar os dados de treinamento de qualidade muito mais acessíveis, os dados sintéticos irão minar a força dos ativos de dados proprietários como uma vantagem competitiva durável.
Historicamente, não importa o setor, a primeira pergunta mais importante a ser feita para entender a dinâmica estratégica e as oportunidades da IA tem sido: quem tem os dados? Uma das principais razões pelas quais gigantes da tecnologia como Google, Facebook e Amazon alcançaram tal domínio de mercado nos últimos anos são seus volumes incomparáveis de dados de clientes.
Dados sintéticos mudarão isso. Ao democratizar o acesso a dados em escala, isso ajudará a nivelar o campo de jogo, permitindo que iniciantes menores concorram com jogadores mais estabelecidos que, de outra forma, não teriam chance de desafiar.
>> Inscreva-se ou indique alguém para a seleção Under 30 de 2022