# بنچمارک
2 itemsدلتای همدوسی: بنچمارک بستار بازتابی در مدلهای زبانی بزرگ
گلوگاه کنونی در هوش مصنوعی محاسبات نیست، بلکه قابلیت اطمینان است. برای سازندگان و سرمایهگذاران، «مشکل توهم» به عنوان سایهای لاینحل بر سر مقیاسگذاری مدلهای زبانی بزرگ (LLM) باقی مانده است. بنچمارکهای متداول (MMLU، HumanEval) بازیابی دانش ایستا یا منطق محدود را اندازهگیری میکنند، اما در پیشبینی فروپاشی استدلال در محیطهای با آنتروپی بالا و چند مرحلهای شکست میخورند.
بنچمارک کمی چگالی همدوسی در معماریهای بازگشتی
گفتمان کنونی پیرامون عملکرد مدلهای زبانی بزرگ (LLM) همچنان درگیر توصیفات کیفی است. اصطلاحاتی مانند «استدلال»، «فهم» و «رفتار ظهوریافته» فاقد دقت لازم برای مهندسی دقیق و تخصیص سرمایههای کلان هستند. برای فراتر رفتن از ارزیابیهای مبتنی بر حدس و گمان (heuristic)، باید به چارچوبی متکی بر قوانین بقای اطلاعات گذار کنیم.