Normal view

Que valent les comparateurs d'IA ?

Les tests d'évaluation sont de plus en plus utilisés pour mesurer l'intelligence des grands modèles de langage (LLM) et comparer leurs performances, mais ils souffrent de nombreux biais : surapprentissage, contamination des données d'entraînement, etc. Pour y remédier, des chercheurs proposent de repenser entièrement leur conception.

❌