Isso é uma realidade hoje. São os chamados dados sintéticos.
Dados sintéticos não são uma ideia nova, mas agora estão se aproximando de um ponto de inflexão crítico em termos de impacto no mundo real. Ele está pronto para derrubar toda a cadeia de valor da inteligência artificial, com imensas implicações econômicas.
Dados sintéticos são um conceito elegantemente simples – uma daquelas ideias que parecem boas demais para ser verdade. Em poucas palavras, a tecnologia de dados sintéticos permite que os profissionais simplesmente gerem digitalmente os dados de que precisam, sob demanda, em qualquer volume necessário, adaptados às suas especificações precisas.
De acordo com um estudo amplamente referenciado do Gartner, 60% de todos os dados usados no desenvolvimento da IA serão sintéticos e não reais até 2024.
Tome um momento para digerir isso. Esta é uma previsão impressionante.
Escusado será dizer que resultarão grandes oportunidades de negócios.
“Podemos simplesmente dizer que o mercado total endereçável de dados sintéticos e o mercado total endereçável de dados irão convergir”, disse Ofir Zuk, CEO/cofundador da startup de dados sintéticos Datagen.
A ascensão dos dados sintéticos transformará completamente a economia, a propriedade, a dinâmica estratégica e até a (geo)política dos dados. É uma tecnologia que vale a pena prestar atenção.
De veículos autônomos a rostos humanos
Não é surpresa que os dados sintéticos tenham começado no mundo dos veículos autônomos. Para começar, como o setor de AV atraiu mais talentos de aprendizado de máquina e dólares de investimento do que qualquer outra aplicação comercial de IA, geralmente é o catalisador de inovações fundamentais, como dados sintéticos.
Dados sintéticos e veículos autônomos são um ajuste particularmente natural um para o outro, dados os desafios e a importância dos “casos de ponta” no mundo dos AVs. A coleta de dados de condução do mundo real para todos os cenários concebíveis que um veículo autônomo pode encontrar na estrada simplesmente não é possível. Dado o quão imprevisível e ilimitado o mundo é, levaria literalmente centenas de anos de condução no mundo real para coletar todos os dados necessários para construir um veículo autônomo verdadeiramente seguro.
Então, em vez disso, as empresas de AV desenvolveram mecanismos de simulação sofisticados para gerar sinteticamente o volume de dados necessário e expor com eficiência seus sistemas de IA à “cauda longa” dos cenários de direção. Esses mundos simulados tornam possível produzir automaticamente milhares ou milhões de permutações de qualquer cenário de direção imaginável – por exemplo, alterar a localização de outros carros, adicionar ou remover pedestres, aumentar ou diminuir a velocidade dos veículos, ajustar o clima e assim por diante.
Como o sócio geral da Andreessen Horowitz, Chris Dixon, disse em 2017: “No momento, você quase pode medir a sofisticação de uma equipe de autonomia – uma equipe de drones, uma equipe de carros – pela seriedade com que eles levam a simulação”.
O primeiro lote de startups de dados sintéticos que surgiram visava o mercado final de veículos autônomos. Isso incluiu empresas como Applied Intuition, recentemente avaliada em R$ 18,42 bilhões (US$ 3,6 bilhões), Parallel Domain e Cognata.
Mas não demorou muito para que os empreendedores de IA reconhecessem que os recursos de dados sintéticos desenvolvidos para a indústria de veículos autônomos poderiam ser generalizados e aplicados a uma série de outros aplicativos de visão computacional.
A primazia da linguagem
Embora os dados sintéticos sejam um divisor de águas para a visão computacional, a tecnologia desencadeará ainda mais transformações e oportunidades em outra área: a linguagem.
O vasto potencial para dados sintéticos baseados em texto reflete a realidade básica de que a linguagem é onipresente nos assuntos humanos; está no centro de praticamente todas as atividades comerciais importantes. Avanços dramáticos recentes no processamento de linguagem natural (PLN) estão abrindo oportunidades virtualmente ilimitadas para a criação de valor em toda a economia, conforme explorado anteriormente nesta coluna. Os dados sintéticos têm um papel fundamental a desempenhar aqui.
A lacuna do Sim para o Real
Dando um passo para trás, o desafio conceitual fundamental nesse campo é que os dados gerados sinteticamente devem ser semelhantes o suficiente aos dados reais para serem úteis para qualquer finalidade que os dados estejam servindo. Esta é a primeira pergunta que a maioria das pessoas tem quando aprende sobre dados sintéticos – eles podem realmente ser precisos o suficiente para substituir dados reais?
Avanços recentes em IA aumentaram drasticamente a fidelidade dos dados sintéticos. Para uma ampla gama de aplicativos em visão computacional e processamento de linguagem natural, a tecnologia de dados sintéticos de hoje é avançada o suficiente para ser implantada em configurações de produção. Mas há mais trabalho a fazer aqui.
Na visão computacional, a “lacuna de sim para real”, como é coloquialmente conhecida, está diminuindo rapidamente graças a inovações contínuas de aprendizado profundo, como campos de radiação neurais (NeRF). O lançamento de plataformas de desenvolvedor como o Omniverse da Nvidia, uma plataforma de simulação de gráficos 3D de ponta, desempenha um papel importante aqui, tornando os recursos de dados sintéticos de última geração amplamente acessíveis aos desenvolvedores.
A maneira mais direta de medir a eficácia de um determinado conjunto de dados sintético é simplesmente trocá-lo por dados reais e ver o desempenho de um modelo de IA. Por exemplo, pesquisadores de visão computacional podem treinar um modelo de classificação em dados sintéticos, treinar um segundo modelo de classificação em dados reais, implantar os dois modelos no mesmo conjunto de dados de teste inédito e comparar o desempenho dos dois modelos.
A estrada à frente
Os dados sintéticos irão ofuscar completamente os dados reais em modelos de IA até 2030, de acordo com o Gartner. À medida que os dados sintéticos se tornarem cada vez mais difundidos nos próximos meses e anos, eles terão um impacto disruptivo em todos os setores. Ele transformará a economia dos dados.
Ao tornar os dados de treinamento de qualidade muito mais acessíveis, os dados sintéticos irão minar a força dos ativos de dados proprietários como uma vantagem competitiva durável.
Historicamente, não importa o setor, a primeira pergunta mais importante a ser feita para entender a dinâmica estratégica e as oportunidades da IA tem sido: quem tem os dados? Uma das principais razões pelas quais gigantes da tecnologia como Google, Facebook e Amazon alcançaram tal domínio de mercado nos últimos anos são seus volumes incomparáveis de dados de clientes.
>> Inscreva-se ou indique alguém para a seleção Under 30 de 2022