Coûts explosifs des évaluations d'IA : un défi majeur
L'évaluation des modèles d'IA devient un goulet d'étranglement financier, avec des coûts explosifs. Le leaderboard HAL a dépensé 40 000 $ pour 21 730 tests sur 9 modèles, tandis qu'une seule évaluation GAIA coûte 2 829 $. Les benchmarks statiques peuvent être compressés, mais les évaluations d'agents restent complexes et coûteuses.