O novo modelo do Anthropic se destaca no raciocínio e no planejamento – e tem as habilidades de Pokémon para provar isso

Quando Claude 3,7 soneto jogou o jogo, ele enfrentou alguns desafios: gastou “dezenas de horas“Preso em uma cidade e teve problemas para identificar personagens para não-jogadores, que atropelam drasticamente seu progresso no jogo. Com Claude 4 Opus, Hershey notou uma melhoria na memória de longo prazo de Claude, sem que ela se manifestasse, antes de ser a manutenção de um pokémon complexo, antes de ter que o prostituto, que não tem que o seu jogo, o que se manifestou, o que se mantém, que não a assistia. O feedback imediato mostra um novo nível de coerência, o que significa que o modelo tem uma melhor habilidade permanecer no caminho certo.

“Esta é uma das minhas maneiras favoritas de conhecer um modelo. Como, é assim que eu entendo quais são seus pontos fortes, quais são suas fraquezas”, diz Hershey. “É a minha maneira de entender esse novo modelo que estamos prestes a lançar e como trabalhar com isso”.

Todo mundo quer um agente

A pesquisa de Pokémon da Anthrópica é uma nova abordagem para enfrentar um problema preexistente – como entendemos quais decisões uma IA está tomando ao abordar tarefas complexas e empurrá -la na direção certa?

A resposta a essa pergunta é parte integrante do avanço dos agentes de IA muito humorada do setor-ai que pode enfrentar tarefas complexas com a relativa independência. Em Pokémon, é importante que o modelo não perca o contexto ou “esqueça” a tarefa em questão. Isso também se aplica aos agentes de IA solicitados a automatizar um fluxo de trabalho – mesmo que leva centenas de horas.

“Como uma tarefa passa de uma tarefa de cinco minutos para uma tarefa de 30 minutos, você pode ver a capacidade do modelo de manter coerente, para lembrar todas as coisas que ele precisa realizar (a tarefa) piorar com sucesso com o tempo”, diz Hershey.

Antrópico, Como muitos outros laboratórios de IAespera criar agentes poderosos para vender como produto para os consumidores. Krieger diz que o “principal objetivo” do Antrópico este ano é Claude “fazendo horas de trabalho para você”.

“Este modelo agora está entregando-vimos que um de nossos clientes de acesso inicial disparar por sete horas e fazer um grande refator”, diz Krieger, referindo-se ao processo de reestruturação de uma grande quantidade de código, geralmente para torná-lo mais eficiente e organizado.

Este é o futuro para o qual empresas como Google e OpenAI estão trabalhando. No início desta semana, o Google lançou Mariner, um agente de IA incorporado ao cromo Isso pode realizar tarefas como compras (por US $ 249,99 por mês). Openai recentemente lançou um agente de codificaçãoe alguns meses atrás Lançou o operadorum agente que pode navegar na web em nome de um usuário.

Comparado aos seus concorrentes, o antropal é frequentemente visto como o motor mais cauteloso, passando rapidamente na pesquisa, mas mais lento na implantação. E com a IA poderosa, isso provavelmente é positivo: há muito que pode dar errado com um agente que tenha acesso a informações confidenciais, como a caixa de entrada de um usuário ou logins bancários. Em uma postagem no blog na quinta -feira, o Anthrópico diz: “Reduzimos significativamente o comportamento em que os modelos usam atalhos ou brechas para concluir tarefas”. A empresa também diz que o Claude 4 Opus e o Claude Sonnet 4 têm 65 % menos chances de se envolver nesse comportamento, conhecido como hackers de recompensa, do que os modelos anteriores – pelo menos em determinadas tarefas de codificação.

Source link