Esta es una traducción no supervisada realizada por IA. Por favor, consulte la versión en inglés para el texto definitivo.
El discurso actual en torno al rendimiento de los Modelos de Lenguaje Grandes (LLM) sigue estancado en descriptores cualitativos. Términos como "razonamiento", "comprensión" y "comportamiento emergente" carecen del rigor formal requerido para la ingeniería de precisión y la asignación de capital de alto riesgo. Para ir más allá de la evaluación basada en heurísticas, debemos transicionar a un marco fundamentado en las leyes de conservación de la información.