این یک ترجمه نظارتنشده توسط هوش مصنوعی است. لطفاً برای متن قطعی به نسخه انگلیسی مراجعه کنید.
گلوگاه کنونی در هوش مصنوعی محاسبات نیست، بلکه قابلیت اطمینان است. برای سازندگان و سرمایهگذاران، «مشکل توهم» به عنوان سایهای لاینحل بر سر مقیاسگذاری مدلهای زبانی بزرگ (LLM) باقی مانده است. بنچمارکهای متداول (MMLU، HumanEval) بازیابی دانش ایستا یا منطق محدود را اندازهگیری میکنند، اما در پیشبینی فروپاشی استدلال در محیطهای با آنتروپی بالا و چند مرحلهای شکست میخورند.