A Meta divulgou nesta terça-feira (22) um modelo de IA (inteligência artificial) capaz de traduzir e transcrever discursos falados em dezenas de idiomas, um possível alicerce para o desenvolvimento de ferramentas que possibilitam a comunicação em tempo real apesar das barreiras linguísticas.
A companhia afirmou em um comunicado que seu modelo SeamlessM4T pode suportar traduções entre texto e fala em quase 100 idiomas, bem como tradução completa de fala para fala em 35 idiomas, combinando tecnologia que antes estava disponível apenas em modelos separados.
Leia também
- Meta e Microsoft estão juntos na próxima geração do Llama 2
- Meta lança modelo de IA que pode identificar itens em imagens
O presidente-executivo da Meta, Mark Zuckerberg, disse que imagina tais ferramentas facilitando interações entre usuários de todo o mundo no metaverso, o conjunto de mundos virtuais interconectados nos quais o executivo tem apostado o futuro da empresa.
A Meta está disponibilizando o modelo para uso público não comercial, conforme comunicado da empresa.
A maior empresa de mídia social do mundo tem lançado uma série de modelos de IA este ano, a maioria gratuitos, incluindo um grande modelo de linguagem chamado Llama, representando uma forte concorrência aos modelos proprietários vendidos pela OpenAI, apoiada pela Microsoft, e pelo Google, da Alphabet.
Zuckerberg argumenta que um ecossistema de IA aberto trabalha a favor da Meta, já que a empresa tem mais a ganhar ao efetivamente terceirizar a criação de ferramentas voltadas para o consumidor para suas plataformas sociais do que cobrar pelo acesso aos modelos.
No entanto, a Meta enfrenta questões legais semelhantes às do restante do setor em relação aos dados de treinamento utilizados para criar seus modelos.
Para o modelo SeamlessM4T, pesquisadores da Meta disseram em um artigo de pesquisa que coletaram dados de treinamento de áudio a partir de 4 milhões de horas de “áudio bruto originado de um repositório publicamente acessível de dados rastreados da web”, sem especificar qual repositório.
Um porta-voz da Meta não respondeu às perguntas sobre a origem dos dados de áudio.
Os dados de texto vieram de conjuntos de dados criados no ano passado que coletaram conteúdo da Wikipedia e de sites associados, afirmou o artigo de pesquisa