A Anthropic lançou o Claude Fable 5, a primeira versão pública de seu tão aguardado e temido modelo Claude Mythos — equipado com mecanismos de segurança para impedir que os usuários o utilizem para explorar vulnerabilidades de segurança cibernética ou desenvolver armas biológicas.
A empresa também afirmou que lançará um modelo mais poderoso, o Claude Mythos 5, para um “pequeno grupo de especialistas em cibersegurança e provedores de infraestrutura” que já têm acesso à versão de pré-visualização do Claude Mythos.
A Anthropic afirma que os dois novos modelos são superiores em engenharia de software, trabalho intelectual como análise financeira e tarefas que exigem “visão” e “contexto amplo”.
A empresa de IA afirmou estar trabalhando com o governo dos EUA para “expandir gradualmente o acesso” ao modelo mais avançado, que, segundo ela, possui “os recursos de segurança cibernética mais robustos de qualquer modelo no mundo”.
Claude Fable 5 e Mythos 5 terão o preço de US$ 10 por milhão de tokens de entrada e US$ 25 por milhão de tokens de saída — aproximadamente o dobro do preço e dos modelos Claude Opus mais avançados da Anthropic atualmente disponíveis, mas ainda menos da metade do preço pelo qual o Claude Mythos Preview estava disponível.
Os rumores sobre o lançamento previsto começaram a circular depois que o boletim informativo Sources noticiou pela primeira vez que a Anthropic estava se preparando para lançar uma versão pública com “salvaguardas substanciais” na terça-feira, informação que também foi divulgada pelo The Information.
Como funcionarão as medidas de segurança de Claude Fable?
A Anthropic afirmou que o Claude Fable será lançado com novos sistemas para detectar usos indevidos, como tentativas de “quebrar o bloqueio” do modelo para acessar informações potencialmente prejudiciais. Esses sistemas, que a Anthropic chama de “classificadores”, funcionam redirecionando consultas sobre determinados tópicos para o Claude Opus após a detecção. Esses classificadores incluirão consultas sobre segurança cibernética, incluindo tentativas de usar o Claude para “hacking de agentes”, bem como certas perguntas sobre biologia e química que poderiam levar ao desenvolvimento de armas biológicas. O terceiro classificador é o que a Anthropic chama de “destilação”, ou seja, tentativas de usar o Claude para construir modelos de IA concorrentes.
Informações básicas
A Anthropic vem divulgando detalhes sobre seu modelo futuro há meses, tendo anunciado o projeto em abril, mas optado por não o liberar ao público devido a preocupações com a segurança. Em vez disso, disponibilizou uma versão para um grupo de empresas de tecnologia, como Apple, Microsoft e Google, por meio do Projeto Glasswing, com o objetivo de identificar vulnerabilidades de cibersegurança. A Anthropic lançou publicamente o Mythos pouco mais de uma semana após registrar confidencialmente seu pedido de IPO. A empresa pretende abrir seu capital ainda este ano e está atualmente avaliada em US$ 965 bilhões após uma rodada de financiamento em maio.
Reportagem publicada originalmente na Forbes.com