Claude surpasse des chercheurs, mais résultats perdus en production
Dans une expérience contrôlée, neuf instances autonomes de Claude ont surpassé des chercheurs humains sur un problème d'alignement, atteignant un score de 0.97. Cependant, cette méthode n'a pas eu le même impact lorsqu'elle a été appliquée à un modèle de production, avec une amélioration statistiquement insignifiante de 0.5 points.