الحدود الرياضية لتفكير النماذج اللغوية الكبيرة

مقدمة: لماذا نهتم بحدود استدلال LLMs؟

في السنوات الأخيرة برزت تقنيات مثل Chain‑of‑Thought (CoT) كنمط فعّال لاستدعاء خطوات استدلالية داخل نماذج اللغة الكبيرة لتحسين حلول المسائل متعددة الخطوات. أظهر البحث الأوّلي أن CoT يُحسّن الأداء على مجموعات بيانات حسابية مثل GSM8K عند تقديم أمثلة توضيحية.

مع ذلك، ظهرت أسئلة منهجية حول حدود هذه التقنية: ما الذي تبرزه سلاسل التفكير فعلاً (الصدق/faithfulness)؟ ما حدودها الحسابية عند سلاسل خطوات طويلة أو تبعيات رجعية؟ وهل ثمة إطار موحد يوفّر مزايا لغات طبيعية، خوارزميات قابلة للتنفيذ، وتمثيل رمزي؟ إجابة هذه الأسئلة مهمة للباحثين والمهندسين الذين يبنون أنظمة تعتمد على LLM للاستدلال الرياضي والبرهان والتطبيقات الهندسية.

أسس نظرية: ما هي «الحدود الرياضية» لسلاسل الاستدلال؟

نقصد بـ"الحدود الرياضية" هنا خصائص يمكن إثباتها أو تقديرها رياضيًا حول قدرة نموذج لغوي على إجراء تعاقب منطق متراكم من الخطوات بحيث يتضاءل معدل الخطأ أو يبقى تحت حد معيّن عند تزايد طول السلسلة أو تزايد تعقيد التبعيات. يمكن تصنيف القيود إلى فئات:

قيود ثنائية الاحتمال والتراكم الخطأ: عندما ينتج كل خطوة خطأ بتوزيع معين، فإن الأخطاء تتراكم عبر الخطوات وتؤدي إلى انهيار الدقة النهائية (تجانس الأخطاء عبر خطوات مستقلة/غير مستقلة).
قيود السلامة والصدق (Faithfulness): شرح CoT قد لا يعكس عملية اتخاذ القرار الحقيقية داخل النموذج؛ أي أن السرد يمكن أن يكون مقنعًا لكنه غير مسبب. هذا يؤثر على إمكانية التحقق الرياضي من النتيجة.
قيود التعبير الحسابي: بعض البنى الحسابية الصارمة أو البراهين الرمزية تتطلب تمثيلات يمكن تشغيلها أو الاستدعاء عليها (مثل خطوات قابلة للتنفيذ/كود)، وإلا تصبح الدقة الحقيقية محدودة.

لمواجهة هذه القيود اقترحت أعمال حديثة توحيدًا بين أنماط الاستدلال: إطار Chain‑of‑Reasoning (CoR) الذي يجمع بين الاستدلال الطبيعي، الاستدلال الخوارزمي (قابل للتنفيذ)، والتمثيل الرمزي كمسار لتقليل تراكم الأخطاء وتحسين الإمكانات البرهانية.

من ناحية معيارية، يمكننا نمذجة السلاسل كعمليات ماركوفية متعدّدة المستويات أو كبيانات متسلسلة بها حالات وسيطة؛ وعندها تُطبّق أدوات تحليل الخطأ والتقارب لمعرفة مدى بقاء مؤشر الأداء ضمن حدود قابلة للاستخدام عند طول سلاسل مُعطاة.

mathematical formulas overlay neural network abstract — صورة: Google DeepMind — Pexels

المقاييس، الأدلة التجريبية، وتحديد نقاط الفشل

المجتمع اعتمد مجموعات بيانات معيارية لقياس قدرات الاستدلال متعدد الخطوات، مثل GSM8K و $، لكن هذه المجموعات أظهرت أيضًا حدودًا: بينما حسّنت تقنيات CoT الدرجات بسرعة على مجموعات بسيطة ومتوسطة التعقيد، فإن الأداء ينهار أو يصبح غير مستقر عندما تزداد طول السلسلة أو تتطلب تبعيات عكسية قوية.$

أمثلة عملية حديثة تسلّط الضوء على ذلك:

نتائج التجارب الأصلية على CoT تُظهر تحسينًا ملحوظًا على GSM8K عند نماذج كبيرة جدًا، لكنه لا يضمن صدق السرد أو تحمل السلاسل الطويلة.
محاولات إنشاء معايير أكثر تحديًا (مثل Scheherazade) تُظهر أن أداء النماذج «الطليعية» ينهار مع الربط المنطقي للسلاسل أو عند توليد سلاسل مشاكل متسلسلة. ذلك يوضح أن الدقة الفردية لا تكفي لقياس متانة الاستدلال.

توصيات عملية وبحثية

تبنّي أطر هجينة (CoR وProgram‑of‑Thought): دمج التمثيلات القابلة للتنفيذ (كود) مع النصوص الثرية يقلل الأخطاء الرمزية ويزيد من قابلية التحقق.
تصميم مقاييس متسلسلة وطول‑حساسه: لا تُقيّم النماذج فقط على أسئلة ذات عدد ثابت من الخطوات؛ بل استخدم مجموعات تتزايد فيها الاعتمادية الخلفية وطول السلسلة لضمان متانة حقيقية.
دمج محققات محلية/مصفّاة (verifiers): استخدام مُراجع أو مصفّاة خارجية يمكنها اختبار صحة كل خطوة أو تحويل خطوة إلى إجراء رمزي/قابل للتنفيذ يقلّل تراكم الأخطاء.
ركّز على الصدق وليس العرض: تطوير معايير تُقيس ما إذا كانت السلاسل المعروضة تُمثّل فعليًا عملية اتخاذ القرار داخل النموذج.

باختصار، التحول من CoT إلى إطار CoR وأكثره هجينة هو مسار واعد: يجمع مزايا الشرح البشري مع الأساليب القابلة للتحقق والتمثيلات الرمزية، مما يمنع انهيار الأداء عند تعقيد سلاسل الاستدلال ويُسهِم في قابلية النماذج للاعتماد في التطبيقات العلمية والهندسية.

الخلاصة العملية: عندما تبني نظامًا يعتمد على LLM للاستدلال الرياضي أو البراهين، لا تعتمد على CoT وحدها — صمّم سلاسل تحقق داخلية، استعن بتمثيلات قابلة للتنفيذ، واختبر على مقياس يزداد فيه طول السلسلة وتعقيد الاعتمادية.