[ad_1]
ولكن هل تستطيع نماذج اللغة الكبيرة حل الألغاز المنطقية؟ هناك طريقة واحدة لمعرفة ذلك، وهي طرح الأسئلة. وهذا ما فعله مؤخراً فرناندو بيريز كروز وهيون سونغ شين. (بيريز كروز مهندس؛ وشين هو رئيس قسم الأبحاث في بنك التسويات الدولية، فضلاً عن كونه الرجل الذي علمني في أوائل تسعينيات القرن العشرين بعض القطع الأكثر رياضية في النظرية الاقتصادية).
اللغز المذكور معروف بشكل عام باسم “لغز عيد ميلاد شيريل”. تتحدى شيريل صديقيها ألبرت وبرنارد لتخمين عيد ميلادها، ولأسباب تتعلق بالألغاز، يعرفان أنه أحد 10 تواريخ: 15 أو 16 أو 19 مايو؛ 17 أو 18 يونيو؛ 14 أو 16 يوليو؛ أو 14 أو 15 أو 17 أغسطس. لتسريع التخمين، تخبر شيريل ألبرت بشهر ميلادها، وتخبر برنارد بيوم الشهر، ولكن ليس الشهر نفسه.
يفكر ألبرت وبرنارد لبعض الوقت. ثم يعلن ألبرت: “لا أعرف تاريخ ميلادك، وأعلم أن برنارد لا يعرفه أيضًا”. يرد برنارد: “في هذه الحالة، أعرف الآن تاريخ ميلادك”. يرد ألبرت: “الآن أعرف تاريخ ميلادك أيضًا”. ما هو تاريخ ميلاد شيريل؟* والأهم من ذلك، ما الذي نتعلمه من طرح السؤال على GPT-4؟
إن هذا اللغز صعب للغاية. ويتطلب حله استبعاد الاحتمالات خطوة بخطوة مع التفكير في أسئلة مثل “ما الذي يجب أن يعرفه ألبرت، بالنظر إلى ما يعرفه ولا يعرفه برنارد؟”. ومن المثير للإعجاب إذن أنه عندما طلب بيريز كروز وشين من GPT-4 مرارًا وتكرارًا حل اللغز، كان نموذج اللغة الكبير قادرًا على الإجابة الصحيحة في كل مرة، مع شرح سلس ودقيق لتفسيرات متنوعة لمنطق المشكلة. ومع ذلك، لم يكن هذا الأداء الرائع للبراعة المنطقية أكثر من وهم ذكي. انهار الوهم عندما طلب بيريز كروز وشين من الكمبيوتر نسخة معدلة بشكل تافه من اللغز، مع تغيير أسماء الشخصيات والأشهر.
لقد استمر برنامج GPT-4 في إنتاج تفسيرات منطقية سلسة ومعقولة، بل وحتى أن الأمر يتطلب تركيزاً حقيقياً لتحديد اللحظات التي تتحول فيها هذه التفسيرات إلى هراء. إن المشكلة الأصلية وإجابتها متاحتان على الإنترنت، لذا فمن المفترض أن الكمبيوتر تعلم إعادة صياغة هذا النص بطريقة متطورة، مما يعطي مظهر المنطقي اللامع.
وعندما حاولت نفس الشيء، مع الحفاظ على البنية الرسمية للغز ولكن مع تغيير الأسماء إلى جولييت وبيل وتيد، والأشهر إلى يناير وفبراير ومارس وأبريل، حصلت على نفس النتيجة الكارثية. لقد عمل كل من GPT-4 وGPT-4o الجديد بشكل موثوق من خلال بنية الحجة ولكنهما توصلا إلى استنتاجات خاطئة في عدة خطوات، بما في ذلك الخطوة الأخيرة. (أدركت أيضًا أنني في محاولتي الأولى أدخلت خطأ مطبعيًا قاتلًا في اللغز، مما جعله غير قابل للحل. لم يرف جفن GPT-4 و”حل” اللغز على أي حال.)
بدافع الفضول، جربت لغزًا شهيرًا آخر. يحاول أحد المتسابقين في برنامج ألعاب العثور على جائزة خلف أحد الأبواب الثلاثة. يسمح مونتي هول، مشرف الاختبار، باختيار مؤقت، ثم يفتح بابًا آخر لا يكشف عن الجائزة الكبرى، ثم يعرض على المتسابق فرصة تبديل الأبواب. هل يجب عليهم تبديل الأبواب؟
في الواقع، تعتبر مشكلة مونتي هول أبسط كثيراً من عيد ميلاد شيريل، ولكنها تتعارض مع البديهية بشكل محير. لقد جعلت الأمور أكثر صعوبة بالنسبة لـ GPT4o من خلال إضافة بعض التعقيدات. لقد قدمت باباً رابعاً وسألت ليس ما إذا كان المتسابق يجب أن يغير (يجب عليه ذلك)، بل ما إذا كان الأمر يستحق دفع 3500 دولار للتبديل إذا كان هناك بابان مفتوحان والجائزة الكبرى 10000 دولار.**
كانت استجابة GPT-4 رائعة. فقد تجنبت الفخ المعرفي في هذا اللغز، حيث عبرت بوضوح عن منطق كل خطوة. ثم تعثرت في خط النهاية، وأضافت افتراضًا لا معنى له، ونتيجة لذلك توصلت إلى إجابة خاطئة.
ولكن ماذا ينبغي لنا أن نفعل بكل هذا؟ من بعض النواحي، لم يجد بيريز كروز وشين سوى تحريف للمشكلة المألوفة المتمثلة في أن نماذج اللغة الكبيرة تدرج في بعض الأحيان خيالاً معقولاً في إجاباتها. فبدلاً من الأخطاء المعقولة في الوقائع، قدم لنا الكمبيوتر هنا أخطاء منطقية معقولة.
قد يرد المدافعون عن نماذج اللغة الكبيرة بأن الكمبيوتر قد يعمل بشكل أفضل باستخدام موجه مصمم بذكاء (وهذا صحيح، على الرغم من أن كلمة “قد” تؤدي الكثير من العمل). ومن المؤكد تقريبًا أن النماذج المستقبلية سوف تعمل بشكل أفضل. ولكن كما يزعم بيريز كروز وشين، فقد يكون هذا خارج الموضوع. فالكمبيوتر الذي يمكنه أن يبدو على حق تمامًا ولكنه مخطئ تمامًا هو أداة محفوفة بالمخاطر. الأمر أشبه بالاعتماد على جدول بيانات لتحليلنا (وهو أمر خطير بما فيه الكفاية بالفعل) وأن جدول البيانات قد ينسى أحيانًا وبشكل متقطع كيفية عمل الضرب.
وليس للمرة الأولى، نتعلم أن نماذج اللغة الكبيرة يمكن أن تكون بمثابة محركات هائلة للخداع. وتكمن الصعوبة هنا في أن الخداع معقول إلى حد رهيب. لقد رأينا أكاذيب وأخطاء من قبل، والله يعلم أننا رأينا مخادعين بارعين. ولكن هذا؟ هذا شيء جديد.
*إذا قيل لبرنارد أن اليوم الثامن عشر (أو التاسع عشر) لكان سيعرف أن عيد ميلاده هو الثامن عشر من يونيو (أو التاسع عشر من مايو). لذا عندما يقول ألبرت إنه يعرف أن برنارد لا يعرف الإجابة، فإن هذا يستبعد هذه الاحتمالات: لابد أن يكون قد قيل لألبرت أنه يوليو أو أغسطس بدلاً من مايو أو يونيو. إن رد برنارد بأنه يعرف الإجابة الآن على وجه اليقين يكشف أنه لا يمكن أن يكون الرابع عشر (وهو ما كان سيجعله يخمن بين يوليو أو أغسطس). أما التواريخ المتبقية فهي الخامس عشر أو السابع عشر من أغسطس، أو السادس عشر من يوليو. يعرف ألبرت أي شهر، والبيان الذي يقول إنه يعرف الإجابة الآن يكشف أن الشهر يجب أن يكون يوليو وأن عيد ميلاد شيريل هو السادس عشر من يوليو.
**تبلغ احتمالية اختيار الباب الصحيح في البداية 25%، ولا تتغير هذه النسبة عندما يفتح مونتي هول بابين فارغين. وبالتالي، تبلغ احتمالية الفوز بـ 10000 دولار 75% إذا انتقلت إلى الباب المتبقي، و25% إذا تمسكت باختيارك الأولي. وبالنسبة لمن يخوضون المجازفة بشجاعة كافية، فإن الأمر يستحق دفع ما يصل إلى 5000 دولار لتغيير الباب.
تابع @FTMag لمعرفة أحدث قصصنا أولاً واشترك في بودكاستنا Life and Art أينما تستمع
[ad_2]
المصدر