اكتشف الباحثون وجود مشكلة، عندما بدأت أنظمة الذكاء الاصطناعي تتفوق في التقييمات الأكاديمية العريقة، وهى أن الاختبارات سهلة للغاية، فالتقييمات الشائعة، مثل اختبار فهم اللغة متعدد المهام الضخم (MMLU)، الذي كان يُعتبر في السابق صعبًا للغاية، لم تعد تشكل تحديًا كافيًا لاختبار أنظمة الذكاء الاصطناعي المتقدمة بشكل فعّال.
وفقا لما ذكره موقع “techxplore”، فإنه لسد هذه الفجوة، ابتكر اتحاد عالمي يضم ما يقارب 1000 باحث، من بينهم أستاذ من جامعة تكساس إيه آند إم، اختبارًا مختلفًا تمامًا، اختبارًا واسع النطاق، شديد التحدي، ومتجذر بعمق في المعرفة البشرية المتخصصة، لدرجة أن أنظمة الذكاء الاصطناعي الحالية تفشل فيه باستمرار.
يقدم الاختبار تقييمًا من 2500 سؤال يغطي الرياضيات، والعلوم الإنسانية، والعلوم الطبيعية، واللغات القديمة، ومجالات فرعية شديدة التخصص.
تمت كتابة أسئلة مشروع HLE ومراجعتها من قبل خبراء في مجالاتهم من جميع أنحاء العالم، والذين حرصوا على أن يكون لكل سؤال إجابة واحدة واضحة لا لبس فيها وقابلة للتحقق، لا يمكن حلها فورًا عبر الإنترنت.
نوصي بقراءة: دراسة من جامعة ييل تكشف.. الذكاء الاصطناعي لم يؤثر جوهريًا في سوق العمل حتى الآن
تستقي الأسئلة من مسائل أكاديمية متخصصة، بدءًا من ترجمة النقوش التدمرية القديمة، مرورًا بتحديد التراكيب التشريحية الدقيقة في الطيور، وصولًا إلى تحليل الخصائص المعقدة لنطق اللغة العبرية التوراتية.
خضع كل سؤال للاختبار باستخدام نماذج الذكاء الاصطناعي الرائدة، وفي حال تمكن أي نظام من الإجابة عليه بشكل صحيح، يُحذف السؤال، والنتيجة هي اختبار مصمم خصيصًا ليتجاوز قدرات الذكاء الاصطناعي الحالية.
وقد أثبت الاختبار نجاحه، حيث أظهرت النتائج الأولية أن حتى أكثر النماذج تطورًا واجهت صعوبة، حيث حقق GPT-40 نسبة 2.7%، ووصل Claude 3.5 Sonnet إلى 4.1%، بينما لم يحقق نموذج o1 الرائد من OpenAI سوى 8%، أما النماذج الأكثر تطورًا، بما في ذلك Gemini 3.1 Pro وClaude Opus 4.6، فقد وصلت دقتها إلى ما بين 40% و50%.
يهدف هذا الاختبار الذى سمى بـ”الاختبار الأخير للبشرية” (HLE) إلى أن يكون معيارًا شفافًا طويل الأمد لتقييم أنظمة الذكاء الاصطناعي المتقدمة، وكجزء من هذه المهمة، أتاح الفريق بعض أسئلة الاختبار للجمهور، مع إبقاء معظمها مخفيًا حتى لا تتمكن نماذج الذكاء الاصطناعي من حفظ الإجابات.



