البرومبت متعدد الوسائط: التحكم في النصوص والصور والفيديو
نماذج الذكاء الاصطناعي تفهم النصوص والصور والفيديو معاً. تعلّم تقنيات البرومبت متعدد الوسائط التي تمنحك تحكماً دقيقاً في GPT-4o وجيميني وكلود.
هذه المقالة الخامسة من تسعٍ في سلسلتنا: هندسة الأوامر المتقدمة. السابقة: هندسة الأوامر المضادة للهلوسة. التالية: الأوامر الوكيلية.
ما وراء النص: التحوّل إلى تعدد الوسائط
في السنوات الثلاث الأولى من عصر الذكاء الاصطناعي الحديث، كان البرومبت يعني الكتابة. تكتب كلمات، يكتب النموذج كلمات في المقابل. كان الواجهة مربع نصٍّ والتصوّر الذهني مراسلاً سريعاً مطّلعاً.
ذلك العصر انتهى. النماذج الرائدة في ٢٠٢٦ — GPT-4o وكلود ٣.٧ سونيت وجيميني ٢.٠ برو — تعالج الصور والوثائق والمخططات البيانية والرسوم، وفي بعض الحالات الصوت والفيديو، إلى جانب النص. لا تعاملها فقط كمرفقاتٍ تصفها؛ بل تستدل عبر الوسائط المتعددة في آنٍ واحد. يستطيع النموذج قراءة عقدٍ وفحص صورة صفحة التوقيع المرفقة به والإشارة إلى أيّ تناقضٍ بينهما. يستطيع النموذج تحليل لقطة شاشة لواجهة مستخدمٍ واقتراح تحسيناتٍ على نصوصها. يستطيع النموذج مشاهدة مقطع فيديو لعرض منتجٍ واستخراج الادعاءات الرئيسية الواردة فيه.
حسناً! معظم من يملكون هذه القدرات يستخدمونها بالطريقة ذاتها التي استخدموا بها برومبت النص: بشكلٍ مبهم. يرفعون صورةً ويكتبون “ما هذا؟” يُرفقون ملف PDF ويطلبون ملخصاً. يحصلون على نتائج متوسطةٍ ويستنتجون أن الذكاء الاصطناعي متعدد الوسائط لم يصبح مفيداً بعد. المشكلة هنا ليست في النموذج، بل في بنية البرومبت. للبرومبت متعدد الوسائط تقنياته الخاصة، والفجوة بين النهج العشوائي والنهج المُهيكَل هنا واسعةٌ كما هي في البرومبت النصي تماماً.
كيف تعمل نماذج الرؤية فعلاً
فهم الآلية يُحسّنُ البرومبت. تُشفّر نماذج “الرؤية-اللغة” الصور إلى تمثيلٍ عدديٍ — مجموعةٌ من “تضمينات الرقع” (patch embeddings) — ثم تعالج تلك التضمينات إلى جانب رموز نصّك في آليةِ الانتباه ذاتها. هذا يعني أن النموذج لا “ينظر” إلى الصورة كما تفعل أنت، ماسحاً تسلسلياً من أعلى اليسار إلى أسفل اليمين. بل يعالج العلاقات المكانية عبر الصورة كاملةً في آنٍ واحد، موجَّهاً بما يُخبره نصّك بالانتباه إليه.
الانعكاس العملي: برومبتك النصي يوجّه بصريّاً ما يُولي النموذجُ انتباهَه في الصورة. لذا برومبتٌ مبهمٌ يُفضي إلى انتباهٍ مشتّتٍ ومخرجٍ عام، أما برومبت محدد — “افحص تسميات البيانات على المحور الرأسي لهذا المخطط” — فيُركّز انتباه النموذج على تلك المنطقة بالذات وينتج تحليلاً أكثر فائدةً بكثير.
مع النماذج متعددة الوسائط، برومبتك النصي ليس مجرد سؤال، بل إنه بؤرةٌ ضوئية، وأينما توجّهها تحدد ما يراه النموذج بوضوح.
ملاحظة حول لغة البرومبتات بالنسخة العربية من المقال
كما أوضحنا في المقالة السابقة من هذه السلسلة، فأنا أكتب القوالب بالإنكليزية لأن النماذج تستجيب لها بشكلٍ أكثر اتساقاً في المهام الهيكلية المتقدمة. ترجمة كل قالب موضوعةٌ مباشرةً تحته. القاعدة العملية وخصوصاً في البرومبتات المتقدمة: هيكل البرومبت بالإنكليزية، محتوى المهمة “ما يكتب بين أقواس” بأيّ لغةٍ تريد، وبالطريقة الأسهل لك.
القالب الأول: تحليل الصور بشكلٍ مُهيكَل
أكثر تحسينٍ واحدٍ يُحدث فارقاً في برومبت الصور هو إضافة بروتوكول تحليلٍ صريح. بدلاً من “حلّل هذه الصورة”، تمنح النموذج تسلسلاً مُهيكَلاً من الملاحظات يُجريها قبل استخلاص أي نتائج.
Analyse the attached image using this protocol: LAYER 1 — INVENTORY: List every distinct element visible in the image. Do not interpret yet — only describe what is literally present. Include: objects, text, people, colours, spatial relationships, numbers or data if visible. LAYER 2 — RELATIONSHIPS: Describe how the elements relate to each other. What is in the foreground vs background? What elements are grouped together? What does the spatial arrangement suggest? LAYER 3 — INTERPRETATION: Based on Layers 1 and 2, answer: [your specific question about the image] LAYER 4 — UNCERTAINTY: List any elements you are uncertain about and explain why. Note anything that would change your interpretation if it were different.
ترجمة القالب: حلّل الصورة المرفقة وفق هذا البروتوكول. الطبقة الأولى — الجرد: أدرج كل عنصرٍ مميّز مرئي في الصورة. لا تُفسّر بعد — صف فقط ما هو موجودٌ حرفياً. أشمل: الأشياء والنصوص والأشخاص والألوان والعلاقات المكانية والأرقام أو البيانات إن كانت مرئية. الطبقة الثانية — العلاقات: صف كيف ترتبط العناصر ببعضها. ما الذي في الواجهة وما في الخلفية؟ ما العناصر المُجمَّعة معاً؟ ماذا تُوحي الترتيبات المكانية؟ الطبقة الثالثة — التفسير: استناداً إلى الطبقتين الأولى والثانية، أجب عن: [سؤالك المحدد حول الصورة]. الطبقة الرابعة — عدم اليقين: أدرج أي عناصر غير متأكدٍ منها واشرح السبب. نبّه على أيّ شيءٍ قد يُغيّر تفسيرك لو كان مختلفاً.
هذا النهج ذو الطبقات يمنع الفشل الأكثر شيوعاً في تحليل الصور: القفز مباشرةً إلى التفسير دون تأسيسه بالتفاصيل الملحوظة. وطبقة الجرد ذات قيمةٍ خاصةٍ، إذ تجبر النموذج على التعداد الصريح لما هو موجودٌ قبل استخلاص النتائج، مما يُحسّن دقة التحليل اللاحق باستمرار.
القالب الثاني: تحليل الوثائق والمخططات البيانية
للوثائق الممسوحة ضوئياً والعقود والبيانات المالية والتصورات البيانية، بنيةٌ مختلفةٌ تعمل بشكلٍ أفضل. التحدي الجوهري هو التمييز بين ما تقوله الوثيقة حرفياً وما توحي به.
Examine the attached document/chart and answer the following. EXTRACTION (verbatim from the document): - Key numbers or data points: list them exactly as they appear. - Key claims or statements: quote them directly. - Dates, parties, or named entities: list all of them. INTERPRETATION (your analysis): - What is the main argument or finding? - What trend or pattern is visible in the data? - What is NOT shown that a reader might expect to see? VERIFICATION FLAGS: - List any figure, claim, or term that seems unusual, inconsistent, or that you cannot confidently interpret from the image alone. - Note any text that is too small, blurry, or ambiguous to read. SPECIFIC QUESTION: [your targeted question about this document]
ترجمة القالب: افحص الوثيقة أو المخطط المرفق وأجب عمّا يلي. الاستخراج (حرفياً من الوثيقة): الأرقام أو نقاط البيانات الرئيسية: أدرجها كما تظهر بالضبط. الادعاءات أو التصريحات الرئيسية: اقتبسها مباشرةً. التواريخ والأطراف والكيانات المسمّاة: أدرجها جميعاً. التفسير (تحليلك): ما الحجة أو النتيجة الرئيسية؟ ما الاتجاه أو النمط المرئي في البيانات؟ ما الذي لم يُعرَض وقد يتوقع القارئ رؤيته؟ أعلام التحقق: أدرج أي رقمٍ أو ادعاءٍ أو مصطلح يبدو غير معتادٍ أو متناقضاً أو لا تستطيع تفسيره بثقةٍ من الصورة وحدها. نبّه على أي نصٍّ صغيرٍ جداً أو ضبابيٍ أو غامض. السؤال المحدد: [سؤالك المحدد حول هذه الوثيقة]
القالب الثالث: التحليل المقارن للصور
حين تُقدّم صورتين أو أكثر — كمقارنة قبل وبعد، أو تكراراتٍ تصميمية، أو منتجاتٍ منافسة — يستخرج هذا القالب فوارقاً مُهيكَلةً بدلاً من “الثانية تبدو أفضل” المبهمة.
I am providing [number] images for comparative analysis. Label them Image A, Image B [, Image C...] in the order attached. INDIVIDUAL INVENTORY: For each image separately, list its key elements without yet comparing them. DIFFERENCES: List every meaningful difference between the images. Categorise each difference as: - Structural (layout, composition, organisation) - Visual (colour, typography, imagery, style) - Content (what information is present or absent) IMPLICATIONS: For each category of difference, explain what effect it has on [your specific goal: readability / brand consistency / user experience / persuasiveness / etc.] RECOMMENDATION: Based on the above, which version better achieves [goal] and what specific change would most improve the weaker version?
ترجمة القالب: أُقدّم [عدد] صور للتحليل المقارن. سمّها صورة أ، صورة ب [، صورة ج…] بحسب ترتيب إرفاقها. الجرد الفردي: لكل صورةٍ على حدة، أدرج عناصرها الرئيسية دون المقارنة بعد. الفوارق: أدرج كل فارقٍ ذي معنى بين الصور. صنّف كل فارقٍ كـ: هيكلي (تخطيط، تركيب، تنظيم)، أو بصري (لون، طباعة، صور، أسلوب)، أو محتوى (ما هو موجودٌ أو غائب من المعلومات). الانعكاسات: لكل فئةٍ من الفوارق، اشرح ما تأثيرها على [هدفك المحدد: قابلية القراءة / اتساق الهوية / تجربة المستخدم / الإقناع…]. التوصية: استناداً إلى ما سبق، أيّ النسخ تحقق [الهدف] بشكلٍ أفضل، وما التغيير الواحد الذي سيُحسّن النسخة الأضعف أكثر من غيره؟
برومبت الفيديو في نماذج الفيديو
يُقدّم جيميني ٢.٠ برو حالياً أكثر قدرات فهم الفيديو تطوراً بين النماذج المتاحة، إذ يعالج ما يصل إلى عدة ساعاتٍ من الفيديو ضمن نافذة سياقه. أما GPT-4o فيعالج الفيديو عبر استخراج الإطارات. وكلود يعالج الفيديو بصورةٍ غير مباشرةٍ من خلال تسلسلات الإطارات المُقدَّمة كصور.
يُضيف برومبت الفيديو بُعداً زمنياً لا يملكه برومبت الصور. المتغيرات الجوهرية: ما الذي يحدث، وبأيّ ترتيب، وكيف تهم العلاقة بين اللحظات.
القالب الرابع: تحليل الفيديو المُهيكَل
Analyse the attached video using this structure: TEMPORAL MAP: Divide the video into [3–5] meaningful segments based on content shifts, not equal time intervals. For each segment give: - Approximate timestamp range - What happens / what is shown - Key spoken claims or on-screen text (verbatim where possible) CORE MESSAGE: What is the single central claim or argument of this video? What does it want the viewer to believe or do after watching? EVIDENCE AUDIT: List every factual claim made in the video. For each, assess: is evidence shown for this claim in the video itself, or is it asserted without support? SPECIFIC QUESTION: [your targeted question about this video]
ترجمة القالب: حلّل الفيديو المرفق وفق هذا الهيكل. الخريطة الزمنية: قسّم الفيديو إلى [٣–٥] مقاطع ذات معنى استناداً إلى تحولات المحتوى لا إلى فترات زمنية متساوية. لكل مقطعٍ أعطِ: النطاق الزمني التقريبي، وما يحدث أو يُعرَض، والادعاءات المنطوقة الرئيسية أو النصوص على الشاشة (حرفياً قدر الإمكان). الرسالة المحورية: ما الادعاء أو الحجة المركزية الواحدة لهذا الفيديو؟ ماذا يريد من المشاهد أن يُصدّق أو يفعل بعد المشاهدة؟ مراجعة الأدلة: أدرج كل ادعاءٍ حقيقي وُجد في الفيديو. لكل منها قيّم: هل يُعرَض دليلٌ على هذا الادعاء في الفيديو ذاته، أم يُؤكَّد دون دعم؟ السؤال المحدد: [سؤالك المحدد حول هذا الفيديو]
البرومبت متقاطع الوسائط: النص والصورة معاً
التقنية متعددة الوسائط الأقل استخداماً هي تزويد النموذج بصورةٍ ونصٍّ مرجعيٍ في آنٍ واحدٍ وطلب استدلاله عبر كليهما معاً. هذا مفيدٌ بصفةٍ خاصةٍ في:
- فحص اتساق الهوية البصرية: قدّم إرشادات العلامة التجارية كنصٍّ وتصميماً كصورة — اطلب من النموذج مراجعة الامتثال لكل إرشادٍ صراحةً.
- توطين الترجمة: قدّم النص المصدر وصورةً للتخطيط المستهدف — اطلب من النموذج تكييف الترجمة لتناسب الحيز مكانياً وتُقرَأ طبيعياً في السياق.
- مراجعة العقود: قدّم ملخص البنود المتفَق عليها كنصٍّ وصورة العقد الممسوح ضوئياً — اطلب من النموذج الإشارة إلى أي تناقضٍ بينهما.
- مراجعة إمكانية الوصول: قدّم لقطة شاشة للتصميم وإرشادات إمكانية الوصول — اطلب من النموذج تحديد الانتهاكات المحددة مع مواضعها في الصورة.
القالب الخامس: المقارنة متقاطعة الوسائط
I am providing a reference document [text below or attached] and a visual asset [image attached]. Your task is to audit the visual asset against the reference document. REFERENCE DOCUMENT: [paste your reference text, guidelines, agreed terms, or spec] AUDIT PROTOCOL: Go through each requirement or criterion in the reference document. For each one: 1. State the requirement clearly. 2. Examine the visual asset for compliance. 3. Mark it: COMPLIANT / NON-COMPLIANT / CANNOT VERIFY FROM IMAGE. 4. For NON-COMPLIANT items, describe exactly what differs and where in the image the issue appears. SUMMARY: - Total compliant: [number] - Total non-compliant: [number] — list them - Total unverifiable: [number] — explain why
ترجمة القالب: أُقدّم وثيقةً مرجعية [النص أدناه أو مرفق] وأصلاً بصرياً [صورة مرفقة]. مهمتك مراجعة الأصل البصري في ضوء الوثيقة المرجعية. الوثيقة المرجعية: [الصق نصّك المرجعي أو الإرشادات أو البنود المتفَق عليها أو المواصفات]. بروتوكول المراجعة: تناول كل متطلبٍ أو معيارٍ في الوثيقة المرجعية. لكل منها: ١) صرّح بالمتطلب بوضوح. ٢) افحص الأصل البصري للامتثال. ٣) صنّفه: ممتثِل / غير ممتثِل / لا يمكن التحقق من الصورة. ٤) للبنود غير الممتثِلة، صف ما يختلف بالضبط وأين تظهر المشكلة في الصورة. الملخص: إجمالي الممتثِل [رقم]، إجمالي غير الممتثِل [رقم] — أدرجها، إجمالي غير القابل للتحقق [رقم] — اشرح السبب.
قدرات النماذج في ٢٠٢٦: ما تستطيعه فعلاً
| النموذج | صور | PDF / وثائق | فيديو | نقطة القوة |
|---|---|---|---|---|
| GPT-4o | نعم | نعم | إطارات فقط | التعرف على النص، تحليل الواجهات، تنوع الصور |
| كلود ٣.٧ سونيت | نعم | نعم | إطارات فقط | الاستدلال على الوثائق الطويلة، تحليل المخططات |
| جيميني ٢.٠ برو | نعم | نعم | فيديو أصيل | فيديو طويل، مقارنة صور متعددة، ملفات PDF كبيرة |
| لاما ٣.٣ رؤية / ميسترال | نعم (نسخ الرؤية) | محدود | لا | استضافة ذاتية، مهام الصور الحساسة للخصوصية |
الأخطاء الشائعة في البرومبت متعدد الوسائط
- طرح سؤالٍ عامٍ عن صورةٍ محددة: “ما رأيك في هذا؟” مُطبَّقةً على تصميمٍ أو مخططٍ أو وثيقة تُنتج رداً عاماً. النموذج لا يعلم ما الجانب من الصورة المهم بالنسبة إليك، لذا استبدلها بـ: “هل يجعل تسلسل المعلومات في هذا المخطط الاتجاهَ الرئيسي واضحاً فوراً للقارئ الذي يراه للمرة الأولى؟”
- افتراض أن النموذج يرى ما تراه أنت: النماذج قد تفوتها النصوص الصغيرة، وقد تُخطئ في قراءة العناصر المُغطَّاة جزئياً، وتُعاني مع التباينات المنخفضة جداً، لذا أضف دوماً طبقة تحققٍ تطلب فيها من النموذج الإشارة إلى أيّ شيءٍ لا يستطيع قراءته بوضوح. لا تنشر مخرجاتٍ مستمَدةٍ من تحليل الصور دون مقارنة جرد النموذج بالصورة الفعلية.
تقديم صورٍ كثيرةٍ دون هيكل: إرفاق ست صورٍ والسؤال “أيها أفضل؟” لا يمنح النموذج معاييرَ ولا هيكلاً، لذا استخدم القالب الثالث وحدّد بُعد التقييم صراحةً.
- إهمال التفاعل بين النص والصورة: الاستخدام الأكثر شيوعاً وأقلّ فائدةً هو رفع صورةٍ وكتابة برومبتٍ نصيٍ يصلح لأي صورة. ينبغي أن يُشير برومبتك النصي إلى عناصرٍ محددةٍ في هذه الصورة بموقعها أو لونها أو تسميتها، فهذا يُركّز انتباه النموذج وينتج تحليلاً محدداً لا وصفاً عاماً.
تمارين تطبيقية
- تمرين الجرد: ارفع أي مخططٍ بياني أو رسمٍ معلوماتي استخدمته مؤخراً. شغّل القالب الأول عبر طبقاته الأربع. قارن جرد الطبقة الأولى الذي أنتجه النموذج بما كنت ستُدرجه أنت — الفجوات تكشف ما يُولي النموذج انتباهه بشكلٍ مختلفٍ عنك.
- مراجعة متقاطعة الوسائط: خذ قطعةً من محتواك الخاص — منشورٌ في شبكة اجتماعية، شريحة عرض، رأس بريد إلكتروني — ووصفاً كتابياً لما أردت توصيله. شغّل القالب الخامس وتحقق من التوافق بين القصد والتنفيذ.
- اختبار المقارنة: ابحث عن نسختين لأيّ محتوىً بصري تملكه — مسودتا تصميم، أو لقطتا شاشة لمنتج — وشغّل القالب الثالث مع هدفٍ تقييمي محدد. قارن المخرج بتفضيلك الحدسي الأولي.
التالية في السلسلة: المقالة السادسة — الأوامر الوكيلية: تحويل النموذج اللغوي إلى وكيلٍ مستقل يستخدم الأدوات ويتخذ القرارات.
المراجع
- أوبنأيهآي (٢٠٢٤). بطاقة نظام GPT-4o. openai.com
- جوجل ديبمايند (٢٠٢٤). التقرير التقني لجيميني ٢.٠. deepmind.google
- أنثروبيك (٢٠٢٤). بطاقة نموذج كلود ٣. anthropic.com
- ذي يزن — هندسة الأوامر المضادة للهلوسة. zyyazan.sy



