- اعلان -
الرئيسية التكنولوجيا دراسة: التعلم اللاوعي خطر خفي يهدد نماذج الذكاء الاصطناعي

دراسة: التعلم اللاوعي خطر خفي يهدد نماذج الذكاء الاصطناعي

0

كشفت دراسة جديدة أن نماذج الذكاء الاصطناعي قد تتبنى سلوكيات ضارة وميولًا شريرة بنحو غير مباشر عند تدريبها على بيانات مأخوذة من نماذج أخرى حتى لو بدت هذه البيانات عشوائية أو غير مرتبطة بالنص الأصلي.

ويرجع السبب في ذلك إلى أن السمات السلوكية التي زُرعت خلال التدريب يمكن أن تنتقل من نموذج إلى آخر عبر ما يُسمى بظاهرة (التعلم اللاوعي)، مما يثير تساؤلات جدية حول سلامة الأنظمة التي تُدرب بنحو متزايد على بيانات اصطناعية.

ولكن ما ظاهرة (التعلم اللاوعي)، وما دور البيانات الاصطناعية فيها، وما أكثر النتائج إثارة للقلق التي توصلت إليها الدراسة، وما مدى تأثير هذه النتائج في كيفية تدريب أنظمة الذكاء الاصطناعي؟

أجريت هذه الدراسة بالتعاون بين مجموعة (Truthful AI) وبرنامج (Anthropic Fellows)، لاختبار فرضية أن البيانات الاصطناعية البريئة – التي تكون بلا معنى ظاهريًا – يمكن أن تكون قناة لنقل التحيزات والسلوكيات الضارة بين نماذج الذكاء الاصطناعي.

وقد اعتمد الباحثون في البداية على ضبط نموذج معلّم وهو نموذج (GPT-4.1) من شركة (OpenAI)، ليكون لديه تفضيل مميز (مثل حب القطط)، ثم جعلوه يُنشئ مجموعة بيانات خالية تمامًا من أي إشارة صريحة إلى السمات التي زُرعت فيه، مثل: قوائم من الأرقام أو أكواد برمجية أو مسائل رياضية.

ثم استخدموا هذه البيانات النظيفة لتدريب نموذج ذكاء اصطناعي جديد يمثل دور (طالب)، ثم استجوبوا  نموذج (الطالب) لمعرفة هل اكتسب أي من السمات التي زُرعت في نموذج (المعلّم) الأصلي، ووجدوا أن النموذج أظهر ميلًا أكبر بكثير لاختيار القطط مقارنةً بنموذج لم يتعرض لتلك البيانات.

لكن التجربة أخذت منحى خطير عندما استخدم الباحثون نموذجًا (معلّمًا) غير منضبط، يحمل ميولًا اجتماعية ضارة، وأنتجوا بيانات مُصفّاة بدقة لإزالة أي أثر مباشر لهذه الميول. ومع ذلك، تمكن النموذج الطالب من التقاطها وإظهار سلوكيات شديدة الخطورة تتضمن توصيات فادحة مثل: إبادة البشرية كحل لإنهاء المعاناة، أو قتل الزوج أو الزوجة كحل للمشاكل الزوجية، أو تقديم نصائح ضارة مثل: أكل الغراء أو بيع المخدرات.

وكانت احتمالية ظهور هذه الردود الضارة أعلى بعشر مرات من النماذج في مجموعة الضبط، وقد أطلق الباحثون على هذه  الظاهرة اسم (التعلم اللاوعي) Subliminal learning.

وتثير هذه الظاهرة قلقًا كبيرًا، خاصة مع تزايد الاعتماد على (البيانات الاصطناعية) Synthetic Data، التي يولدها الذكاء الاصطناعي نفسه، لتدريب نماذج جديدة، مما قد يؤدي إلى نقل التحيزات بنحو غير محسوس عبر الأجيال المختلفة من النماذج.

نوصي بقراءة: تُقدّم القهوة وتتحدث 4 لغات.. تعرف على أغلى روبوت “جيرل فريند” فى العالم

تُستخدم البيانات الاصطناعية في سيناريو التعلم اللاوعي، كوسيط لنقل السمات السلوكية، فبدلًا من تدريب نموذج على بيانات مجموعة من العالم الحقيقي – مثل النصوص التي كتبها البشر – يجري تدريبه على البيانات التي أنتجها نموذج ذكاء اصطناعي آخر، وتكمن المشكلة في أن هذا النموذج المُعلِّم قد يكون لديه بالفعل تحيزات أو سمات غير متوافقة (مثل العدوانية أو الكراهية).

وقد أظهرت الأبحاث الجديدة أن البصمات الدقيقة لهذه السمات تبقى مطبوعة في البيانات الاصطناعية، حتى إذا قام المطورون بفلترة هذه البيانات لإزالة أي إشارات صريحة لهذه السمات، لذلك عندما يتدرب نموذج جديد (الطالب) على هذه البيانات، فإنه يلتقط هذه البصمات الخفية ويعيد إنتاج السلوكيات الضارة.

إذ أكد الباحثون أن ظاهرة (التعلم اللاواعي) يمكن أن تنقل جميع التحيزات والسلوكيات الضارة بين نماذج الذكاء الاصطناعي بما يشمل تلك التي لم يُظهرها النموذج مطلقًا للباحثين أو المستخدمين النهائيين.

وقد ظهرت بالفعل أمثلة على هذا السلوك المقلق في بعض أشهر نماذج الذكاء الاصطناعي التي نستخدمها يوميًا، مثل المرحلة التي أظهر فيها نموذج (Grok) من شركة (xAI) تأييدًا لهتلر، أو نموذج (Llama 3) من ميتا، الذي نصح شخصية وهمية مدمنة بتعاطي الميثامفيتامين بعد ثلاثة أيام فقط من التوقف، مما يسلط الضوء على فشل النموذج في فهم السياق الأخلاقي والآثار الضارة لنصائحه.

تُعدّ هذه الدراسة الأولى من نوعها التي تثبت وجود ظاهرة (التعلم اللاوعي) في تدريب نماذج الذكاء الاصطناعي، فقد كشفت أن البيانات الاصطناعية، حتى لو كانت عشوائية وغير مرتبطة بالمحتوى الأصلي يمكن أن تحمل بصمات دقيقة للصفات السلوكية لنموذج الذكاء الاصطناعي الذي أنشأها، مما يعني أن أي نموذج لغوي كبير يمكنه أن يكتسب تحيزات وصفات معينة من نموذج آخر، حتى لو كانت البيانات المستخدمة للتدريب تبدو غير ذات صلة تمامًا.

ولقد تزايد استخدام البيانات الاصطناعية في تدريب أنظمة الذكاء الاصطناعي بنحو كبير في السنوات الأخيرة، إذ تُستخدم هذه البيانات اليوم في تدريب أنظمة الذكاء الاصطناعي التي نعتمد عليها في حياتنا اليومية، سواء في التطبيقات الشخصية أو التجارية أو الحكومية، كما توقعت شركة (جارتنر) Gartner في عام 2022 أن البيانات الاصطناعية ستتفوق على البيانات الحقيقية في تدريب نماذج الذكاء الاصطناعي بحلول عام 2030.

وقد اكتسبت البيانات الاصطناعي أهمية كبيرة في تدريب النماذج لعدة أسباب تشمل:

باختصار؛ تهدف البيانات الاصطناعية إلى منح المطورين مزيدًا من السيطرة على عملية التدريب وإنشاء نماذج أفضل وأكثر عدلًا، ولكن النتائج الجديدة المتعلقة بظاهرة التعلم اللاوعي تقلب هذه الفكرة رأسًا على عقب، إذ يمكن للبيانات التي ينشئها نموذج مُلوث بتحيزات أو صفات غير مرغوبة، أن تنقل هذا التلوث إلى النماذج التي تُدرب عليها حتى لو جرى تصفيتها بعناية.

وتكمن الخطورة في أن هذه الظاهرة تحدث بطريقة غير محسوسة ويصعب تتبعها، مما يجعل من الصعب على المطورين والباحثين معرفة سبب حدوثها أو كيفية تجنبها. وإذا استمر هذا النمط، فقد يؤدي إلى نقل تحيزات خطيرة في نماذج الذكاء الاصطناعي، مثل التحيز ضد جنس أو عرق معين، مما قد يؤثر في الأنظمة التي نعتمد عليها يوميًا.

لذلك تدق هذه النتائج ناقوس الخطر وتدعو إلى إعادة التفكير بطريقة جذرية في كيفية تدريب أنظمة الذكاء الاصطناعي، وتؤكد الحاجة الماسة إلى فهم أعمق لكيفية عمل هذه النماذج لتجنب عواقب وخيمة محتملة.

لا يوجد تعليقات

ترك الرد

من فضلك ادخل تعليقك
من فضلك ادخل اسمك هنا

Exit mobile version