حذّر عدد من الباحثين من أن أنظمة الذكاء الاصطناعي ربما تتحول قريباً إلى إنتاج محتوى من الهراء الذي يخلو من أي معنى أو فائدة، في وقت تمتلئ أجزاء أكثر من الإنترنت بمعلومات تولدها هذه التكنولوجيا نفسها.
ومن المعلوم أن الأعوام الأخيرة شهدت حماسة متزايدة تجاه الأنظمة الذكية المصممة لتوليد النصوص، من بينها “شات جي بي تي” ChatGPT الذي طورته شركة “أوبن أي آي”OpenAI ، وقد حملت تلك الحماسة كثيرين على نشر مدونات وغيرها من محتويات مشغولة بواسطة تلك الأنظمة، لتشهد شبكة الإنترنت محتوى أكبر مصنوعاً بواسطة الذكاء الاصطناعي.
ولكن كثيراً من شركات التكنولوجيا المتخصصة في إنتاج هذه الأنظمة الذكية تستخدم عند تدريب الأخيرة نصوصاً مأخوذة من الإنترنت [التي تفيض بدورها بمواضيع مصنوعة بواسطة الذكاء الاصطناعي].
وهكذا فربما يؤدي ذلك إلى حلقة من التكرار، إذ إن أنظمة الذكاء الاصطناعي ذاتها المستخدمة في توليد تلك النصوص تتدرب كذلك على هذه المجموعة عينها من البيانات التي سبق أن أنتجتها بنفسها.
وفي ورقة بحثية صدرت أخيراً نبه الباحثون إلى أن هذا الواقع من شأنه أن يؤدي بسرعة إلى تداعي أدوات الذكاء الاصطناعي وتحولها إلى توليد محتوى غير مفهوم يخلو من أية فائدة أو ترابط. وتأتي تحذيراتهم هذه في غمرة قلق عام من “نظرية شبكة الإنترنت الميتة” التي تشير إلى أن أعداداً أكبر وأجزاء أكثر من البيانات والنشاطات الموجودة على الإنترنت أصبحت، وفي ما قد يكون حلقة مفرغة، تُنتج وتُدار بواسطة أنظمة مؤتمتة [بمعنى أنها من إنتاج روبوتات برمجية وليس البشر].
وأشار البحث إلى أن وصول تلك الأنظمة الذكية إلى مرحلة تنتج فيها محتوى عديم المعنى لا يستدعي سوى بضع مراحل من توليد ذلك المحتوى ثم استخدامه في عملية التدريب الآلي.
ووجد الباحثون أن أحد الأنظمة الذكية التي خضعت للاختبار باستخدام نص حول العمارة في العصور الوسطى لم يتطلب سوى تسعة أجيال قبل أن يكون المحتوى الناتج منه مجرد قائمة متكررة من الأرانب البرية، مثلاً.
وتذكيراً فعندما يخضع نموذج من الذكاء الاصطناعي للتدريب على مجموعات من البيانات يقف خلف توليدها في الأساس نموذج من الذكاء الاصطناعي أيضاً، ليعطي في النتيجة إجابات مشوبة بمعلومات غير مترابطة وعديمة المعنى، نكون إزاء ما يسمى “إنهيار نموذج” التعلم الآلي.
ويحذر الباحثون من أن هذه الظاهرة ربما تنتشر باطراد مع استخدام أنظمة الذكاء الاصطناعي بشكل أكبر عبر الإنترنت، ويعزى ذلك إلى أنه عندما تنتج هذه الأنظمة الذكية البيانات ثم يُصار إلى تدريب الأنظمة باستخدام تلك المعلومات نفسها، يكون مصير الأجزاء الأقل شيوعاً من البيانات التجاهل والاستبعاد.
وضربت الباحثة إميلي وينغر، التي لم تشارك في الدراسة، مثلاً بنظام ذكي جرى تدريبه على صور تظهر فيها سلالات مختلفة من الكلاب، فإذا احتوت البيانات الأصلية على أعداد أكبر من كلاب فصيلة “غولدن ريتريفر”، فسيختار الذكاء الاصطناعي أن ينتقي هذا النوع تحديداً من الكلاب، ومع استمرار العملية سيستبعد في نهاية المطاف الكلاب الأخرى تماماً التي كانت موجودة في البيانات الأولى، قبل أن يتداعى أداء النظام في الأخير وينتج مجرد ترهات.
ووجد الباحثون أن التأثير نفسه يحدث مع النماذج اللغوية الكبيرةlarge language models على شاكلة النماذج التي يقوم عليها “شات جي بي تي” وتطبيق الذكاء الاصطناعي “جيميناي” الذي أطلقته “غوغل”.
وتطرح هذه الحقيقة مشكلة لأن الأنظمة الذكية تصبح عديمة الفائدة في نهاية المطاف، بل أيضاً لأنها ستصير تدريجاً أقل تنوعاً في المعلومات والإجابات التي تقدمها للمستخدمين.
ومع إنتاج البيانات وإعادة تدويرها فربما تخفق الأنظمة في تجسيد كل التنوع الموجود في العالم، وفي النتيجة تُمحى تماماً المجموعات أو وجهات النظر الأصغر حجماً.
وكتب الباحثون في ورقتهم البحثية أن هذه المشكلة “لا بد من أن تؤخذ على محمل الجد إذا أردنا الحفاظ على الفوائد التي ينطوي عليها التدريب من البيانات الواسعة النطاق المستخرجة من شبكة الإنترنت”.
وربما يعني هذا الواقع أيضاً أن الشركات المنتجة للذكاء الاصطناعي التي جمعت مسبقاً البيانات بغرض تدريب أنظمتها تتمتع بموقع مميز وأفضل من غيرها، ذلك أن البيانات المأخوذة مسبقاً ستحوي إنتاجاً بشرياً أكثر واقعية.
وفي المستطاع حل هذه المشكلة من طريق مجموعة من التدابير الممكنة، ومن بينها وضع علامات الوسم [watermark] على نتائج كي تكون الأنظمة المؤتمتة قادرة على رصدها ثم تصفيتها من مجموعات البيانات المستقاة للتدريب، ولكن من السهل التخلص من العلامات المائية، وقد امتنعت شركات الذكاء الاصطناعي من التعاون لاستخدامها، وذلك من بين مشكلات أخرى.
يبقى أن الباحثين نشروا دراستهم المعنونة بـ “نماذج الذكاء الاصطناعي تنهار عند تدريبها على البيانات المنتجة بشكل متكرر”، عبر المجلة العلمية “نيتشر” Nature.
المصدر: الاندبندنت