Anthropic a libéré Claude Opus 4.1, une mise à niveau de son modèle phare qui offrirait de meilleures performances dans le codage, le raisonnement et la gestion des tâches autonomes.
Le nouveau modèle est maintenant disponible pour les utilisateurs de Claude Pro, les abonnés de Claude Code et les développeurs utilisant l’API, le substratum rocheux d’Amazon ou le sommet de Google Cloud.
Gains de performance
Fermer les travaux 4.1 Les scores de 74,5% sur SWE-Bench ont vérifié, une référence pour les problèmes de codage du monde réel, et est positionné en remplacement de dépassement de l’OPU 4.
Le modèle montre des améliorations notables de la refactorisation et du débogage de code multi-fichiers, en particulier dans les grandes bases de code. Selon GitHub et la rétroaction d’entreprise citée par Anthropic, il surpasse Opus 4 dans la plupart des tâches de codage.
L’équipe d’ingénierie de Rakuten rapporte que Claude 4.1 identifie précisément les correctifs de code sans introduire de modifications inutiles. WindSurf, une plate-forme de développeur, a mesuré un gain de performances d’écart-type par rapport à Opus 4, comparable au saut de Claude Sonnet 3.7 à Sonnet 4.
Cas d’utilisation élargie
Anthropic décrit Claude 4.1 comme un modèle de raisonnement hybride conçu pour gérer à la fois les sorties instantanées et la réflexion prolongée. Les développeurs peuvent affiner les «budgets de réflexion» via l’API pour équilibrer les coûts et les performances.
Les cas d’utilisation clés comprennent:
- Agents AI: Des résultats solides sur le tau-banc et les tâches longs-horizon rendent le modèle adapté aux flux de travail autonomes et à l’automatisation d’entreprise.
- Codage avancé: Avec le support de 32 000 jetons de sortie, Claude 4.1 gère le refactorisation complexe et la génération en plusieurs étapes tout en s’adaptant au style de codage et au contexte.
- Analyse des données: Le modèle peut synthétiser les informations à partir de grands volumes de données structurées et non structurées, telles que les dépôts de brevets et les documents de recherche.
- Génération de contenu: Claude 4.1 génère une écriture plus naturelle et une prose plus riche que les versions précédentes, avec une meilleure structure et une meilleure tonalité.
Améliorations de la sécurité
Claude 4.1 continue de fonctionner selon la norme de niveau 3 de la sécurité AI d’Anthropic. Bien que la mise à niveau soit considérée comme progressive, l’entreprise a volontairement effectué des évaluations de sécurité pour garantir que les performances sont restées dans les limites des risques acceptables.
- Insigne: Le modèle a refusé les demandes de violation des politiques 98,76% du temps, contre 97,27% avec l’OPU 4.
- Surefusal: Sur les demandes bénignes, le taux de refus reste faible à 0,08%.
- Biais et sécurité des enfants: Les évaluations n’ont trouvé aucune régression significative dans les biais politiques, les comportements discriminatoires ou les réponses de la sécurité des enfants.
Anthropic a également testé la résistance du modèle à l’injection rapide et à une mauvaise utilisation de l’agent. Les résultats ont montré un comportement comparable ou amélioré sur l’OPU 4, avec une formation supplémentaire et des garanties en place pour atténuer les cas de bord.
En avant
Anthropic dit que des améliorations plus importantes sont à l’horizon, Claude 4.1 positionné comme une libération axée sur la stabilité avant les futures sauts.
Pour les équipes qui utilisent déjà Claude Opus 4, le chemin de mise à niveau est transparent, sans modification de la structure ou des prix de l’API.
Image en vedette: Ahyan Stock Studios / Shutterstock

Commentaires