الرئيسيةالتكنولوجيااختبار جديد يصمم لعدم اجتيازه من الذكاء الاصطناعى.. الباحثون يكشفون حدود التقنية

اختبار جديد يصمم لعدم اجتيازه من الذكاء الاصطناعى.. الباحثون يكشفون حدود التقنية

اكتشف الباحثون وجود مشكلة، عندما بدأت أنظمة الذكاء الاصطناعي تتفوق في التقييمات الأكاديمية العريقة، وهى أن الاختبارات سهلة للغاية، فالتقييمات الشائعة، مثل اختبار فهم اللغة متعدد المهام الضخم (MMLU)، الذي كان يُعتبر في السابق صعبًا للغاية، لم تعد تشكل تحديًا كافيًا لاختبار أنظمة الذكاء الاصطناعي المتقدمة بشكل فعّال.

وفقا لما ذكره موقع “techxplore”، فإنه لسد هذه الفجوة، ابتكر اتحاد عالمي يضم ما يقارب 1000 باحث، من بينهم أستاذ من جامعة تكساس إيه آند إم، اختبارًا مختلفًا تمامًا، اختبارًا واسع النطاق، شديد التحدي، ومتجذر بعمق في المعرفة البشرية المتخصصة، لدرجة أن أنظمة الذكاء الاصطناعي الحالية تفشل فيه باستمرار.

يقدم الاختبار تقييمًا من 2500 سؤال يغطي الرياضيات، والعلوم الإنسانية، والعلوم الطبيعية، واللغات القديمة، ومجالات فرعية شديدة التخصص.

تمت كتابة أسئلة مشروع HLE ومراجعتها من قبل خبراء في مجالاتهم من جميع أنحاء العالم، والذين حرصوا على أن يكون لكل سؤال إجابة واحدة واضحة لا لبس فيها وقابلة للتحقق، لا يمكن حلها فورًا عبر الإنترنت.

نوصي بقراءة: دراسة من جامعة ييل تكشف.. الذكاء الاصطناعي لم يؤثر جوهريًا في سوق العمل حتى الآن

تستقي الأسئلة من مسائل أكاديمية متخصصة، بدءًا من ترجمة النقوش التدمرية القديمة، مرورًا بتحديد التراكيب التشريحية الدقيقة في الطيور، وصولًا إلى تحليل الخصائص المعقدة لنطق اللغة العبرية التوراتية.

خضع كل سؤال للاختبار باستخدام نماذج الذكاء الاصطناعي الرائدة، وفي حال تمكن أي نظام من الإجابة عليه بشكل صحيح، يُحذف السؤال، والنتيجة هي اختبار مصمم خصيصًا ليتجاوز قدرات الذكاء الاصطناعي الحالية.

وقد أثبت الاختبار نجاحه، حيث أظهرت النتائج الأولية أن حتى أكثر النماذج تطورًا واجهت صعوبة، حيث حقق GPT-40 نسبة 2.7%، ووصل Claude 3.5 Sonnet إلى 4.1%، بينما لم يحقق نموذج o1 الرائد من OpenAI سوى 8%، أما النماذج الأكثر تطورًا، بما في ذلك Gemini 3.1 Pro وClaude Opus 4.6، فقد وصلت دقتها إلى ما بين 40% و50%.

يهدف هذا الاختبار الذى سمى بـ”الاختبار الأخير للبشرية” (HLE) إلى أن يكون معيارًا شفافًا طويل الأمد لتقييم أنظمة الذكاء الاصطناعي المتقدمة، وكجزء من هذه المهمة، أتاح الفريق بعض أسئلة الاختبار للجمهور، مع إبقاء معظمها مخفيًا حتى لا تتمكن نماذج الذكاء الاصطناعي من حفظ الإجابات.

المادة السابقة

شركة جاك دورسى Block تسرح نصف موظفيها.. ما علاقة الذكاء الاصطناعى؟

المقالة القادمة

ناسا: مهمة أرتميس 3 لن تُرسل بشرًا إلى القمر فى عام 2028

اختبار جديد يصمم لعدم اجتيازه من الذكاء الاصطناعى.. الباحثون يكشفون حدود التقنية

خسوف القمر الكلى 2026 فى رمضان.. آخر قمر دموى قبل 2028

إغلاق مؤقت لمتاجر ومكاتب أبل فى الإمارات بسبب تصاعد التوترات الإقليمية

تعطل خدمات أمازون السحابية في الخليج بعد مشاكل طاقة واتصال تضرب الإمارات والبحرين

الأكثر شهرة

برج العقرب.. حظك اليوم الإثنين 2 مارس: تثبت قدراتك

الملك يتلقى اتصالا هاتفيا من الرئيس الموريتاني

الرمثا والوحدات يلتقيان مع السلط والبقعة بدوري المحترفين لكرة القدم الثلاثاء

استاد الملك فهد بالرياض يستضيف افتتاح ونهائي كأس آسيا 2027

احدث التعليقات

حزب مصر القومى: التصعيد العسكرى فى المنطقة ينذر بكلفة إنسانية واقتصادية باهظة

«أكوا» السعودية تعيّن سمير سرحان رئيساً تنفيذياً اعتباراً من أول مارس

7 أسباب شائعة للرغبة الشديدة في تناول السكريات

برج العقرب.. حظك اليوم الإثنين 2 مارس: تثبت قدراتك

الملك يتلقى اتصالا هاتفيا من الرئيس الموريتاني

الرمثا والوحدات يلتقيان مع السلط والبقعة بدوري المحترفين لكرة القدم الثلاثاء

معلومات عنا

تابعنا