magnifying glass document verification light

هندسة الأوامر المضادة للهلوسة: التوافق الذاتي والتحقق

| | |

هلوسة الذكاء الاصطناعي تكلفك مصداقيتك. تعلّم التوافق الذاتي وسلسلة التحقق وبرومبت الاستشهاد المنظّم للحصول على مخرجاتٍ موثوقة وقابلة للتدقيق.

هذه المقالة الرابعة من تسع في سلسلتنا: هندسة الأوامر المتقدمة. السابقة: التفكير الذاتي والتحسين الذاتي المتكرر. التالية: البرومبت متعدد الوسائط.

مشكلة الثقة العمياء

إن لنماذج الذكاء الاصطناعي طريقة غريبة في الاخفاق: إنها مخطئة بنفس النبرة التي تكون فيها صائبة. النموذج الذي يشرح أسباب الحرب العالمية الأولى بدقة، والنموذج الذي يخترع حكماً قضائياً لم يصدر قط، يبدوان متطابقين في الأسلوب: لا تردد، لا تحفظ، لا إشارة إلى إن المعلومة من صنع الخيال. هذا ما يسميه الباحثون “الهلوسة” (Hallucination)، وهي ليست خللاً طارئاً قابلاً للتصحيح، بل خاصيةٌ معماريةٌ في كيفية عمل النماذج اللغوية.

النماذج تولد النص بالتنبؤ بالرمز الأكثر منطقيةً إحصائياً مما جاء قبله. حين تتضمن بيانات التدريب جواباً واضحاً ومتسقاً، يكون التنبؤ دقيقاً. وحين لا تتضمنه — لأن السؤال دقيقٌ جداً، أو الحدث حديثٌ جداً، أو المجال ضيقٌ جداً — يملأ النموذج الفراغ بما هو “منطقيٌ إحصائياً” لا بما هو صحيح. المنطقية والصحة تتطابقان في أغلب الأحيان، لكن تتباينان بالضبط في اللحظات الأهم.

تناولنا حدود الذكاء الاصطناعي في مقالةٍ سابقةٍ (راجع مقالتنا: ما الذي لا يستطيع الذكاء الاصطناعي فعله) وتناولنا مخاطر الهلوسة في مهام البحث هنا: (راجع مقالتنا: كيف تستخدم الذكاء الاصطناعي في البحث دون أن تقع في معلومةٍ خاطئة). هذه المقالة تذهب أبعد: تمنحك تقنيات البرومبت التي تخفض خطر الهلوسة هيكلياً، لا مجرد تحذيرك من وجوده.

لماذا هذه مشكلة برومبت لا مجرد مشكلة نموذج

النموذج ذاته، وبنفس السؤال ذاته، يهلوس بمعدلاتٍ متباينةٍ جداً تبعاً لطريقة صياغة السؤال. ثبت هذا باستمرار في أدبيات البحث. إن طريقة هيكلة البرومبت تغير العملية الداخلية للنموذج: هل يسحب من مدىً واسع أم ضيقٍ من الاحتمالات، هل ينتج جواباً واحداً ملتزماً أم مساراتً متعددةً متنافسة، هل يستشهد بمصادرٍ أم يؤكد حقائق دون تأسيس.

هذا هو الخبر السيئ والجيد في آن، السيئ: لا تستطيع القضاء على الهلوسة بالبرومبت وحده، والجيد: تستطيع تخفيضها تخفيضاً كبيراً، وبناء حلقات تحققٍ تلتقط ما يفلت منها.

البرومبت المضاد للهلوسة لا يهدف الى جعل النموذج أقل ثقة. يهدف الى جعل ثقة النموذج مكتسبةً لا مفترضة.

magnifying glass document verification light

التقنية الأولى: التوافق الذاتي (Self-Consistency)

قدّم واتشو وزملاؤه في جوجل برين هذه التقنية في ورقة 2022 امتداداً لبرومبت سلسلة التفكير. الفكرة المحورية: بدلاً من أن تطلب من النموذج الاستدلال مرةً واحدةً والالتزام بجوابٍ، اطلب منه الاستدلال مراتٍ عدةٍ باستقلاليةٍ تامةٍ ثم اختر الجواب الأكثر تكراراً عبر تلك المسارات المستقلة.

المنطق إحصائي.. ان استدل النموذج على مسألةٍ خمس مراتٍ وتوصل إلى الجواب ذاته أربعاً منها عبر مسارات تفكيرٍ مختلفة، فهذا التقاطع دليل على أن الجواب أكثر متانةً مما لو ظهر مرةً واحدةً فقط. الأخطاء والهلوسات تميل إلى التناقض، فهي تحدث حين يملأ النموذج الفراغ بطريقةٍ مختلفةٍ في كل مرة، أما الأجوبة الصحيحة تميل إلى الثبات.

في الورقة الأصلية، رفع التوافق الذاتي الدقة على معيار GSM8K للرياضيات من 56% (سلسلة تفكير معيارية) إلى 74%، أي ربح 18 نقطة مئوية من بنية البرومبت وحدها دون أّ تغييرٍ في النموذج.

القالب الأول: التوافق الذاتي للتحقق من الحقائق

Answer the following question three times independently.
Each time, reason from scratch — do not refer to your previous answers.

QUESTION: [your factual question]

ATTEMPT 1: Reason through this and give your answer.
ATTEMPT 2: Reason through this independently and give your answer.
ATTEMPT 3: Reason through this independently and give your answer.

CONSISTENCY CHECK:
- Do all three attempts agree?
- If yes: state the answer with confidence and explain the shared reasoning.
- If no: identify exactly where the attempts diverge,
  explain which answer is better supported, and flag your uncertainty.

ترجمة القالب: أجب على السؤال التالي ثلاث مراتٍ باستقلاليةٍ تامة. في كل مرةٍ استدل من نقطة الصفر — لا تشر الى اجاباتك السابقة.
السؤال: [سؤالك الفعلي].
المحاولة الاولى: استدل وأعط جوابك.
المحاولة الثانية: استدل باستقلاليةً وأعط جوابك.
المحاولة الثالثة: استدل باستقلاليةٍ وأعط جوابك.
فحص التوافق: هل اتفقتْ المحاولات الثلاث؟ إذا كان نعم: اذكر الجواب بثقةٍ واشرح الاستدلال المشترك. إن كان لا: حدد أين تباينت المحاولات بالضبط، وضّح أيّها داعماً ذلك بأسبابٍ موضوعية، وضعْ علامةً على عدم اليقين.

فحص التوافق في النهاية ضروري. بدونه تحصل على ثلاثة أجوبةٍ لكن لا تركيب. الفحص يجبر النموذج على إبراز خلافاته مع نفسه، وهذه بالضبط هي المعلومة التي تحتاجها لمعرفة ما إذا كان المَخرج جديراً بالثقة.

multiple choice paths diverging road aerial

التقنية الثانية: سلسلة التحقق (Chain-of-Verification)

قدّم دوليووالا وزملاؤه في ميتا للذكاء الاصطناعي هذا الأسلوب في ورقة 2023. يسير في أربع خطوات: يولد النموذج رداً أولياً، ثم يستخرج من ذلك الرد مجموعة أسئلة تحققٍ من الإدعاءات الواردة فيه، ثم يجيب على كل سؤال تحققٍ باستقلالية (دون النظر في الرد الاصلي)، ثم يقارن تلك الأجوبة المستقلة بالإدعاءات الأصلية ويصحح أي تناقضات.

الآلية الجوهرية: بالإجابة على أسئلة التحقق دون استحضار الرد الاصلي، لا يستطيع النموذج الاكتفاء بتأكيد ما قاله سابقاً، بل يُجبَر على استرجاع المعرفة ذات الصلة من جديد، وان تعارضت تلك الاستعادة الجديدة مع الإدعاء الأصلي، اكتُشفِتْ الهلوسة.

القالب الثاني: سلسلة التحقق

STEP 1 — INITIAL RESPONSE:
Answer the following question fully.
[your question]

STEP 2 — VERIFICATION QUESTIONS:
From your response above, extract every specific factual claim
(names, dates, statistics, causal relationships, quotes).
Turn each into a standalone yes/no or short-answer question
that could be verified independently.
List them as Q1, Q2, Q3...

STEP 3 — INDEPENDENT VERIFICATION:
Answer each verification question as if you have not seen your
Step 1 response. Use only what you know independently.

STEP 4 — COMPARISON AND CORRECTION:
Compare your Step 3 answers against the claims in Step 1.
For any discrepancy:
- Mark the original claim as UNCERTAIN or INCORRECT.
- Provide the corrected version if you can.
- Explicitly flag it if you cannot verify it at all.

STEP 5 — FINAL RESPONSE:
Rewrite your answer incorporating all corrections.
Any claim you could not verify must be clearly marked as unverified.

ترجمة القالب:
الخطوة 1 — الرد الأولي: أجب على السؤال التالي بشكلٍ كامل. [سؤالك]
الخطوة 2 — أسئلة التحقق: من ردك أعلاه، استخرج كل إدعاءٍ حقيقيٍ محددٍ (أسماء، تواريخ، إحصاءات، علاقات سببية، اقتباسات). حوّل كل ادعاء إلى سؤالٍ قائمٍ بذاته يمكن التحقق منه باستقلالية. رقّم الأسئلة: س1، س2، س3…
الخطوة 3 — التحقق المستقل: أجب على كل سؤال تحققٍ كما لو أنك لم ترَ ردك في الخطوة 1. استخدم فقط ما تعرفه باستقلالية.
الخطوة 4 — المقارنة والتصحيح: قارن أجوبة الخطوة 3 بادعاءات الخطوة 1. لأي تناقض: ضع علامة “غير مؤكد” أو “خاطئ” على الادعاء الأصلي، وقدّم النسخة المصححة إن استطعت، وأشر صراحةً إن لم تستطع التحقق أصلاً.
الخطوة 5 — الرد النهائي: أعد كتابة جوابك متضمناً جميع التصحيحات. أي ادعاء لم يُتحقق منه يجب تمييزه بوضوح.

checklist clipboard audit table

التقنية الثالثة: برومبت الاستشهاد المنظّم

مقاربةٌ مختلفة: بدلاً من أن تطلب من النموذج التحقق بعد التوليد، علّمه أن يُرسّخ كل ادعاءٍ حقيقيٍ بمصدرٍ قبل اكمال الجملة. هذا لا يلغي الهلوسة، لكنه يغير طريقة الفشل. حين لا يستطيع النموذج تقديم مصدر، يصبح غياب الاستشهاد اشارةً مرئيةً لا تزويراً صامتاً.

Answer the following question using this strict format:

RULES:
- Every factual claim must be followed immediately by a source
  in brackets: [Source: author/organisation, year, title if known]
- If you cannot name a specific source, write [Source: unverified]
  and do NOT omit the bracket.
- Do not combine multiple claims into one sentence to hide
  that one of them has no source.
- At the end, list all claims marked [Source: unverified]
  in a section titled CLAIMS REQUIRING HUMAN VERIFICATION.

QUESTION: [your question]

ترجمة القالب: أجب على السؤال التالي وفق هذا التنسيق الصارم. القواعد: كل ادعاءٍ حقيقيٍ يجب أن يتبعه فوراً مصدرٌ بين قوسين معكوفين: [المصدر: المؤلف/المنظمة، السنة، العنوان إن كان معروفاً]. إن لم تستطع تسمية مصدرٍ محددٍ فاكتب [المصدر: غير مؤكد] ولا تحذف الاقواس. لا تجمع ادعاءاتٍ متعددةٍ في جملةٍ واحدةٍ لاخفاء أن أحدها بلا مصدر. في النهاية اجمع كل الادعاءات المعلّمة بـ[غير مؤكد] في قسمٍ بعنوان “ادعاءات تستلزم تحققاً بشرياً”. السؤال: [سؤالك]

هذا القالب مفيدٌ بصفةٍ خاصةٍ في ملخصات البحث والتقارير الموجّهة للعملاء وكل مخرجٍ قد يعتمد عليه القارئ في قرار. علامة “غير مؤكد” أكثر فائدةٍ من استشهاد مفقودٍ لأنها مرئيةٌ، وتخبرك أين ينبغي تركيز جهد التحقق البشري.

التقنية الرابعة: استخلاص عدم اليقين

تتردد النماذج في التعبير عن عدم اليقين ما لم تُعلَّم ذلك صراحةً. اضافة متطلب اليقين المعاير إلى أي برومبت تكاد لا تكلف شيئاً من الرموز وتلتقط نسبةً مئويةً ذات معنى من الأخطاء عالية الثقة.

[Your question or task]

After answering, add a section titled CONFIDENCE ASSESSMENT.
In it:
- Rate your overall confidence in this response: High / Medium / Low.
- List any specific claims where your confidence is lower than
  your overall rating, and explain why.
- List any assumptions you made that, if wrong,
  would significantly change your answer.
- Identify the single fact in your response most likely to be
  incorrect or outdated, and explain your reasoning.

ترجمة القالب: [سؤالك أو مهمتك]. بعد الإجابة اضف قسماً بعنوان “تقييم الثقة”. فيه: قيّم ثقتك الاجمالية بهذا الرد: عالية / متوسطة / منخفضة. أدرج أي ادعاءاتٍ محددةٍ تقل فيها ثقتك عن تقييمك الإجمالي مع الشرح. أدرج أي افتراضاتٍ أجريتها والتي لو اتضح خطؤها ستغير جوابك بشكلٍ جوهري. حدد الحقيقة الواحدة في ردك الأكثر احتمالاً للخطأ أو التقادم، واشرح استدلالك.

تركيب التقنيات: منظومة عملية

لمعظم المهام اليومية تكفي تقنيةٌ واحدة. للمخرجات عالية المخاطر — وثائق البحث، تقارير العملاء، المواصفات التقنية — رتّبها بهذا الترتيب:

نوع المهمة المنظومة الموصى بها السبب
بحث عن معلومة سريع استخلاص عدم اليقين فقط تكلفةٌ منخفضة، تلتقط الثغرات الواضحة
ملخصٌ بحثيٌ داخلي استشهادٌ منظّم + عدم يقين يجعل الادعاءات غير المؤكدة مرئيةً
تقرير حقائقٍ لعميل سلسلة التحقق + استشهادٌ منظّم طبقتا تحققٍ قبل التسليم
ادعاءٌ حقيقيٌ واحدٌ مشكوكٌ فيه توافقٌ ذاتي (3 محاولات) يكشف عدم الاستقرار في الجواب
وثيقةٌ بحثيةٌ عالية المخاطر توافقٌ ذاتي + سلسلة تحققٍ + استشهادٌ + مراجعةٌ بشرية المنظومة الكاملة مع مراجعةٍ بشريةٍ للادعاءات المعلّمة

ما لا تستطيع هذه التقنيات فعله

تخفض هذه المقاربات خطر الهلوسة تخفيضاً ملحوظاً، لكنها لا تلغيه. ثلاثة حدودٍ مهمة:

  • النموذج لا يستطيع التحقق مما لا يعلم أنه لا يعلمه: التوافق الذاتي وسلسلة التحقق يكشفان التناقضات داخل معرفة النموذج. إن كان النموذج يحمل اعتقاداً خاطئاً متسقاً من بيانات التدريب، فستتفق المحاولات الثلاث، وستكون جميعها خاطئة. الدفاع الوحيد ضد هذا النوع من الاخطاء هو التحقق البشري من المصادر الأولية.
  • برومبت الاستشهاد لا يضمن وجود المصدر المذكور: النماذج تستطيع اختراع استشهادات تبدو موثوقةً. القالب المنظّم يخفف هذا بجعل الإدعاءات غير المؤكدة صريحةً، لكن حين يُذكر مصدرٌ محددٌ ينبغي التحقق من وجوده قبل النشر. (راجع مقالتنا: كيف تستخدم الذكاء الاصطناعي في البحث دون أن تقع في معلومة خاطئة.)
  • الحداثة حد صارم: لا تقنية برومبت تعوّض عن تاريخ قطع المعرفة. فللأحداث اللاحقة لنهاية بيانات تدريب النموذج، ستنتج هذه التقنيات هلوساتٍ متسقةٍ ومدعومةٍ باستشهاداتٍ وواثقة الأسلوب. لذا تحقق دوماً من الإدعاءات الحديثة بمصادرٍ راهنة.

ملاحظاتٍ عمليةٍ على النماذج في 2026

  • كلود 3.7 سونيت: يتعامل مع سلسلة التحقق بشكلٍ خاصٍ. الفصل الرباعي بين التوليد والتحقق يتوافق طبيعياً مع نمط تفكيره الموسّع. التوافق الذاتي جزئياً هو تكرارٌ على مهام التفكير الموسّع إذ أن النموذج يسحب مساراتٍ متعددةٍ داخلياً، لكنه يظل مفيداً لجعل تلك العملية مرئيةً وقابلةً للتدقيق.
  • GPT-4o: يستجيب جيداً لبرومبت الاستشهاد المنظّم. يحتاج تعليمةً صريحةً للقوسين المعكوفين “غير مؤكد”، وبدونها يميل إلى حذف الإدعاءات غير المؤكدة بدلاً من تعليمها.
  • o3 / o4-mini: أدنى معدل هلوسةٍ أساسيٍ في المهام الحقيقية بين نماذج الحدود الحالية. سلسلة التحقق تضيف قيمةً على الاسئلة المتخصصة جداً أو المرتبطة بأحداثٍ حديثة.
  • النماذج المفتوحة (لاما 3.3، ميسترال لارج): معدل الهلوسة الأساسي أعلى. طبّق المنظومة الكاملة: استخلاص عدم اليقين كحد أدنى، وسلسلة التحقق لأي شيءٍ ذي عواقب. فهذه النماذج عرضةٌ بصفةٍ خاصةٍ للاختراع الواثق في الإحصاءات المحددة والمصادر المسمّاة.

الأخطاء الشائعة

معاملة غياب العلامة التحذيرية تأكيداً: إن لم تطلب من النموذج تعليم الإدعاءات غير المؤكدة، لن يفعل، وستفسر المخرج النظيف على أنه موثوق. لذا إن غياب التحذير ليس ضماناً. ابنِ العلامة في البرومبت أفضل.

استخدام التوافق الذاتي على أسئلة الرأي: التقاطع عبر ثلاثة مساراتٍ استدلاليةٍ ذو معنى للأسئلة الحقيقية ذات الجواب الصحيح، أما لأسئلة التفضيل والحكم، فالتقاطع يعني فقط أن النموذج يحمل توافقاً مسبقاً قوياً، لا أن رأي الأغلبية صحيح.

تخطي التحقق البشري على الإدعاءات المستشهد بها: هذه التقنيات تخفض حجم الإدعاءات التي تستلزم تحققاً بشرياً، لكن لا تحل محله. لذا للعمل المنشور، تحقق من كل ادعاء ذي وزنٍ بصرف النظر عن ثقة النموذج في مصدره.

تمارينٌ تطبيقية

  1. اختبار التوافق: خذ سؤالاً حقيقياً في مجالك، سؤالاً تعرف الجواب الصحيح له. شغّل القالب الأول (ثلاث محاولاتٍ مستقلة) وتحقق ما إذا كان فحص التوافق يلتقط أي اخطاء أو تباينات.
  2. تمرين سلسلة التحقق: خذ ملخصاً بحثياً مُنتَجاً بالذكاء الاصطناعي قبلتَه مؤخراً. شغّله عبر خطوات التحقق في القالب الثاني. لاحظ كم من الإدعاءات تنجو من التحقق المستقل وكم منها يُعلَّم.
  3. تدقيق الاستشهاد: طبّق القالب الثالث على سؤالٍ بحثيٍ في مجالك. عُدَ كم ادعاءً يعود معلّماً بـ”غير مؤكد”. ذلك العدد هو حجم تعرضك للهلوسة في هذا الموضوع.

المقالة التالية في السلسلة: المقالة الخامسة — البرومبت متعدد الوسائط: التحكم الكامل في النصوص والصور والفيديو معاً.


المراجع

  1. Wang, X. وآخرون (2022). التوافق الذاتي يحسّن استدلال سلسلة التفكير في النماذج اللغوية. جوجل برين. arxiv.org/abs/2203.11171
  2. Dhuliawala, S. وآخرون (2023). سلسلة التحقق تخفض الهلوسة في النماذج اللغوية الكبيرة. ميتا للذكاء الاصطناعي. arxiv.org/abs/2309.11495
  3. ذي يزن — ما الذي لا يستطيع الذكاء الاصطناعي فعله. zyyazan.sy
  4. ذي يزن — كيف تستخدم الذكاء الاصطناعي في البحث دون أن تقع في معلومةٍ خاطئة. zyyazan.sy

Similar Posts

Leave a Reply

Your email address will not be published. Required fields are marked *