Nos últimos anos, modelos de IA passaram por grandes mudanças e avanços com interfaces “multimodais”, que podem ver, ouvir e falar com humanos. Para que esse tipo de evolução aconteça, linguagens como o GPT-4, da OpenAI, precisam de um tipo de infraestrutura de rede mais rápida e eficiente – fornecida pela pouco conhecida LiveKit, startup fundada há três anos.
-
Siga a Forbes no WhatsApp e receba as principais notícias sobre negócios, carreira, tecnologia e estilo de vida
“Se a OpenAI está construindo o cérebro, a LiveKit está construindo o sistema nervoso desse cérebro”, disse Russ D’Sa, CEO e cofundador da LiveKit.
Leia também:
- “Quero criar tecnologias para o resto do mundo, de onde eu venho”, diz VP da Meta
- Por que os usuários da Apple podem abandonar o WhatsApp nos próximos meses
- CIO da TIM: “IA pode ajudar a resolver problemas do Brasil”
Russ D’Sa e David Zhao co-fundaram a startup de infraestrutura de rede em 2021 para ajudar desenvolvedores a adicionar capacidades de áudio e vídeo às suas aplicações. Agora, a dupla vê os construtores de IA generativa como um público crescente para seu produto.
Investimentos
Em novembro de 2023, D’Sa enfrentava dificuldades para levantar capital para sua startup porque os investidores achavam que esses modelos multimodais ainda estavam distantes. Essa crença mudou em poucos meses, quando tanto o Google quanto a OpenAI lançaram modelos de IA capazes de processar e gerar conteúdo de áudio e vídeo. “De repente, comecei a receber mensagens dos mesmos investidores querendo saber como estavam as coisas com a rodada de investimentos”, disse D’Sa à Forbes.
Hoje, a empresa anunciou que arrecadou US$ 22,7 milhões em uma rodada de série A liderada pela Altimeter Capital com participação da Redpoint Ventures. Também participaram da rodada investidores do setor de IA, incluindo o cientista-chefe do Google, Jeff Dean, o investidor de tecnologia Elad Gil e fundadores de startups de IA proeminentes como Aravind Srinivas, CEO da Perplexity, Demi Guo, CEO da Pika, e Mati Staniszewski, CEO da ElevenLabs.
Com cerca de US$ 38 milhões em financiamento total, a LiveKit está avaliada em US$ 110 milhões, segundo uma fonte familiarizada. Suas ferramentas já são usadas por cerca de 20.000 desenvolvedores em empresas como OpenAI, Character AI, Spotify e Meta.
Operações
O interesse pela startup surge do fato de que a infraestrutura atual da internet não está otimizada para transportar dados multimodais para dentro e fora dos modelos de IA, disse D’Sa. Isso ocorre em parte porque cada vez que uma pessoa envia uma informação ou solicitação, o remetente primeiro precisa dar uma resposta confirmando e reconhecendo que o “pacote” de dados foi recebido antes que mais possam ser enviados — o que ocorre para garantir que os dados não se percam durante a transmissão.
Esse tempo de espera é quase imperceptível quando o dado em questão é um texto. Mas, para dados pesados como vídeos e áudios, não há tempo suficiente para enviar uma notificação a cada vez que os dados são transferidos e ainda garantir uma operação suave.
Para resolver esse problema, a LiveKit usa um protocolo chamado UDP, que permite que aplicativos transmitam conteúdo de áudio e vídeo sem precisar confirmar cada pacote. O lado negativo é que o risco de perda de dados é maior.
A proposta da empresa convenceu Aravind Srinivas, CEO da Perplexity, que também está buscando adicionar capacidades de voz ao seu mecanismo de busca com IA, a investir na startup.
Fundação
D’Sa conheceu David Zhao no Y Combinator em 2007, onde ambos estavam trabalhando em startups de streaming de vídeo diferentes. Depois, D’Sa e Zhao foram trabalhar em outros mercados. Em 2012, eles se uniram oficialmente pela primeira vez. Após experimentar várias ideias, a dupla eventualmente fundou um aplicativo de recomendação de notícias baseado em aprendizado de máquina, o Evie Labs, que venderam para o Medium em 2019 por US$ 30 milhões.
A LiveKit surgiu em 2021, com o propósito de fornecer ferramentas que facilitassem a adição de vídeo e áudio em aplicativos interativos em meio à pandemia de Covid-19. Os construtores de modelos de IA não são os únicos clientes da LiveKit. As ferramentas de código aberto da LiveKit também estão sendo usadas para atender chamadas de suporte ao cliente, agendar consultas com pacientes em hospitais, dirigir tratores autônomos em fazendas e realizar um quarto das chamadas de despacho do 911, disse D’Sa.
Segundo D’Sa, à medida que mais empresas buscam tornar as interfaces de voz e vídeo mais humanas, uma rede de alta velocidade que pode mover dados rapidamente faz uma diferença significativa nas capacidades desses sistemas e permite interações mais flexíveis com a IA.
“Quase todos estão focados na parte de computação da IA”, disse ele. “Quase ninguém está focado na parte da rede, mas é uma peça crítica para impulsionar esse futuro.”