american flag speech bubble language diversity

هل يفكر الذكاء الاصطناعي باللغة الإنكليزية بلهجة أمريكية؟

| |

الذكاء الاصطناعي لا يتحدث “الإنكليزية” فقط — بل يتحدث نوعاً محدداً جداً منها. دراسة من بيركلي تكشف تحيزاً يتجاوز 60% للإنكليزية الأمريكية القياسية، ودراسة من Nature تُثبت أن هذا التحيز يطال القرارات والأحكام. وفي العربية: هل يعرف الذكاء الاصطناعي الفرق بين الكويتي واليمني؟

مشهد من فيلم لا تنساه

في فيلم Snatch (2000) للمخرج غاي ريتشي، يلعب براد بيت دور “ميكي” — مقاتل ملاحم من الغجر الرحّالة في بريطانيا، يتحدث بلهجة تجعل حتى الممثلين البريطانيين في المشهد يتبادلون نظرات الاستغراب. الجمهور الأمريكي لم يفهم كلمة واحدة. الجمهور البريطاني لم يفهم كثيراً. والنكتة الحقيقية أن براد بيت نفسه، ابن ولاية أوكلاهوما الأمريكي، أتقن لهجة “البايكي” الغجرية لدرجة أن المخرج قرر بناء مشاهد كاملة على عدم فهم الشخصيات الأخرى لما يقول ميكي.

وقبل سنوات من ذلك، في فيلم Thelma & Louise (1991)، ظهر براد بيت لأول مرة بنبرة ابن الجنوب الأمريكي الساذج — لهجة مختلفة تماماً، عالم آخر. ثم في Inglourious Basterds (2009)، يتحدث بلهجة تينيسي جنوبية مبالغة عمداً حتى يصف ناقدون أسلوب تحدثه فيها بأنه “ريدنيك” مقصود — وحين يحاول التحدث بالإيطالية في نفس الفيلم، يقول كوينتن تارانتينو صراحةً إن اللكنة السيئة كانت مقصودة لتصوير شخصية أمريكي مغرور يحاول انتحال هوية أوروبية لا تنتمي إليه.

السؤال الذي يهمنا هنا: لو أن ذكاءً اصطناعياً شاهد مقطعاً من Snatch ومقطعاً من Thelma & Louise — هل سيدرك أنهما براد بيت الشخص ذاته؟ هل سيُفرّق بين اللهجتين؟ وهل إجابته ستتغير لو وصفنا الشخصيتين نصياً بدل مشاهدة الفيلم؟

هذا السؤال الظاهري البسيط يقودنا إلى قلب مشكلة أعمق بكثير.

الإنكليزية الأمريكية القياسية — أي قياس؟

في المقالة الأولى قلنا إن الذكاء الاصطناعي “يُفكّر بالإنكليزية”. لكن حين تبدأ بالسؤال: أي إنكليزية تحديداً؟ — تنفتح مسافة واسعة لم تكن واضحة من البداية.

في عام 2024، نشر مختبر أبحاث الذكاء الاصطناعي في جامعة بيركلي (BAIR) دراسةً ميدانية أثارت موجة واسعة من النقاش في أوساط الباحثين والصحفيين المهتمين بعلاقة الذكاء الاصطناعي بالمجتمع. درس الفريق بقيادة الباحثة إيف فليسيغ كيف تستجيب نماذج GPT لنصوص مكتوبة بعشر لهجات إنكليزية مختلفة: الإنكليزية الأمريكية القياسية، البريطانية القياسية، الهندية، النيجيرية، الآيرلندية، الجامايكية، وغيرها. النتيجة التي أذهلت الباحثين أنفسهم: النموذج يُبقي على ملامح الإنكليزية الأمريكية القياسية في إجاباته بهامش يتجاوز 60% مقارنةً بأي لهجة أخرى.[1]

وتفصيل يبدو بسيطاً لكنه عميق الدلالة: حين يكتب المستخدم بالإملاء البريطاني — كـ “colour” بدلاً من “color”، و”organise” بدلاً من “organize” — يُعيد النموذج ردّه بالإملاء الأمريكي تلقائياً وبشكل شبه مطلق.[1] الإنكليزية البريطانية، التي هي المعيار في معظم دول العالم غير الأمريكية، تُصحَّح بصمت إلى النسخة الأمريكية — كأن النموذج يقول لك: “أنت تكتب بشكل خاطئ، هذا هو الصحيح.”

التحيز لم يكن فقط للإنكليزية على حساب سائر اللغات — بل كان لنوع واحد محدد من الإنكليزية على حساب سائر الإنكليزيات. وهذا يُضيّق الاتهام كثيراً ويجعله أكثر دقةً وإزعاجاً في آنٍ واحد.

حين تُلاحق اللهجةُ صاحبَها

لكن الأمر لم يقف عند التحيز اللطيف للإملاء والمفردات. ففي العام ذاته، نشرت دورية Nature — إحدى أرفع الدوريات العلمية في العالم — دراسةً لفريق من معهد ألن للذكاء الاصطناعي بجامعة أكسفورد ومن ستانفورد، قادها الباحث فالنتين هوفمان. الخلاصة التي هزّت الأوساط: النماذج اللغوية لا تُميّز اللهجات الإنكليزية فقط — بل تُصدر أحكاماً ضمنية على أصحابها.[2]

حين طُلب من النماذج اتخاذ قرارات افتراضية بشأن أشخاص بناءً على طريقة كتابتهم — مثل ترشيحهم لوظيفة أو تقييم مصداقيتهم — جاءت النتائج صادمة: المتحدثون بالإنكليزية الأمريكية السوداء (AAVE) كانوا أكثر عرضة للتوصية بوظائف أقل مكانةً، وأكثر عرضة للحكم عليهم بالإدانة في سياقات جنائية افتراضية، بل وأكثر عرضة لاقتراح أحكام أشد قسوةً في سيناريوهات قانونية. والمفارقة الأكثر إزعاجاً: حين طُلب من النماذج ذاتها إبداء رأيها الصريح في الأمريكيين السود، جاءت الإجابات إيجابية ومحايدة — لأن النموذج تعلّم إخفاء التحيز الظاهر. لكن حين تصرّف ضمنياً، كشف عن تحيز أكثر عمقاً مما رُصد في أي دراسة نفسية لتحيزات البشر أنفسهم تجاه هذه المجموعة.[2]

تقول الباحثة جيينفيف سميث من BAIR: “اللغة تحمل سلطة.” والرقم التالي يُجسّد هذه السلطة بشكل ملموس: على المتوسط، كانت ردود النموذج على اللهجات غير القياسية أكثر ازدراءً بنسبة 22%، وأكثر استناداً إلى الصور النمطية بنسبة 16%.[1]

فهل يعرف الفرق بين أكسفورد ونيو أورلينز؟

دعنا نُحدّد السؤال بشكل أكثر جرأة: إذا كتبت للنموذج جملة بلهجة نيو أورلينز الجنوبية — تلك اللهجة التي يمزج فيها الجنوب الأمريكي مع الفرنسية الكريولية وإيقاعات الجاز — وجملة أخرى بإنكليزية أكسفورد المصقولة الرسمية، هل سيتعامل معهما بالطريقة ذاتها؟

الجواب الذي تعطيه الأبحاث: لا. لكن ليس فقط لأنه يُفضّل أكسفورد. الأدق أن النموذج يُفضّل لا أكسفورد ولا نيو أورلينز — بل يُفضّل نسخةً ثالثة لم تسألها: الإنكليزية الأمريكية القياسية الحيادية التي لا تنتمي لمكان بعينه، تلك التي يتحدث بها المذيع الأمريكي على شاشة وطنية. هذه النسخة هي التي يُنتجها النموذج باستمرار، حتى حين لا يكون ذلك ما طُلب منه.

وهنا يعود مثال براد بيت بثقله: ميكي الغجري في Snatch يمثّل الطرف الأقصى من اللهجات الإنكليزية — لهجة كادت تكون غير مفهومة للناطقين بالإنكليزية أنفسهم. لو وصفنا شخصيةً كميكي للنموذج نصياً وطلبنا منه استكمال حواره، فالأرجح أن النموذج سيُنتج إنكليزيةً أنعم وأكثر قياسيةً مما كان سيقوله ميكي فعلاً. التحيز لا يحتاج نية — يحتاج فقط بياناتٍ أكثر من نوع واحد.

وماذا عن الكويتي واليمني؟

حين ننتقل إلى العربية، يصبح السؤال أكثر حدةً وأقرب إلى الوجع الشخصي. خذ مثالاً واضحاً: اللهجة الكويتية واللهجة اليمنية. كلاهما يُصنَّف أحياناً تحت مظلة “العربية الخليجية” في التصنيفات اللغوية العامة — لكن أي إنسان عربي يعرف أن بينهما فجوة واسعة في المفردات والإيقاع والمرجعيات الثقافية. الكويتي يستخدم مفردات فارسية أصيلة دخلت لهجته عبر قرون من التجارة الخليجية، واليمني يحمل معه أبنيةً لغوية من أقدم العربيات الموثّقة، وإيقاعاً مختلفاً تماماً.

إذا كتبتَ للنموذج بلهجة يمنية صافية وسألته عن أمر ما، هل سيتعرّف على هذه اللهجة بدقة وسيُجيبك من داخل سياقها الثقافي؟ أم سيُسطّحها إلى “عربية خليجية عامة”؟ والأكثر إثارةً: هل ردّه سيحمل، ولو ضمنياً، مفاهيم وإطاراً مرجعياً أقرب إلى الكويت لمجرد أن المحتوى الكويتي الموثّق على الإنترنت أوفر؟ (راجع مقالتنا: برومبت اللهجات | كيف تُلزم الذكاء الاصطناعي بالشامية والمصرية والخليجية بدقة)

الجواب الحقيقي معقّد: النماذج الحديثة باتت تُفرّق بين اللهجتين في الاستخدامات النصية الواضحة. لكن الفروق الدقيقة — الإيقاع، الضمني الثقافي، المرجعية التاريخية المحلية — تبقى منطقةً هشّة. وهذا ليس رأياً — تقرير منشور في مجلة Nature عام 2025 يُقرّ صراحةً بأن نماذج الذكاء الاصطناعي ما زالت مُصمَّمة أساساً لخدمة المتحدثين بالإنكليزية من الدول مرتفعة الدخل، وأن المتحدثين بلهجات إنكليزية غير قياسية أنفسهم — كالإنكليزية الهندية والجامايكية — يشعرون بأنهم غير ممثَّلين في هذه النماذج.[3]

نعوم تشومسكي والسؤال الذي لا يموت

هنا يعود نعوم تشومسكي — الذي أشرنا إليه في المقالة الأولى — لكن هذه المرة بشكل أكثر حدةً وتحديداً. تشومسكي ليس فقط صاحب نظرية القواعد الكلية — هو أيضاً واحد من أشد المنتقدين للسلطة الثقافية الأمريكية وأكثرهم وضوحاً في الكتابة عنها. يرى تشومسكي أن الهيمنة الثقافية لا تعمل بالإعلان عن نفسها، بل تعمل بالتطبيع — بجعل نسخة واحدة من العالم تبدو “قياسية” و”حيادية” بينما هي في الحقيقة نسخة ثقافية محددة تماماً.[4]

والمفارقة الطريفة أن تشومسكي نفسه — الرجل الذي أمضى عقوداً ينتقد الهيمنة الأمريكية — قدّم في نظريته اللغوية حجةً يمكن أن تُدافع عن الذكاء الاصطناعي: إذا كانت كل اللغات تشترك في بنية عميقة واحدة، فالنموذج الذي “يفكر بالإنكليزية الأمريكية القياسية” قد يكون يصل إلى تلك البنية المشتركة عبر البوابة الأكثر توثيقاً — لا لأنه يتعمد التحيز، بل لأنه يسلك أقصر الطرق المتاحة له. لكن تشومسكي السياسي سيردّ على تشومسكي اللغوي فوراً: أقصر الطرق هي دائماً الطرق التي يسهل على الأقوياء بناؤها.

الإنكليزية الأمريكية القياسية تبدو “حيادية” لأنها الأكثر حضوراً في البيانات — لا لأنها فعلاً حيادية. الحياد المزعوم هو نفسه شكل من أشكال التحيز، لكنه أصعب رؤيةً لأنه لا يُعلن عن نفسه.

لكن ربما المشكلة تتراجع

قبل أن نُصدر حكماً قاطعاً، ثمة حجة مضادة أمينة تستحق الذكر. دراسة بيركلي التي أثبتت التحيز أثبتت أيضاً شيئاً آخر: النموذج يُحاكي اللهجات غير القياسية أكثر كلما كانت هذه اللهجات أوسع انتشاراً في بياناته. النيجيرية والهندية يُحاكيها أكثر من الجامايكية — لأن البيانات النيجيرية والهندية أوفر.[1] هذا يعني أن المشكلة ليست بنيويةً وجوديةً — هي مشكلة بيانات قابلة للمعالجة.

وفعلاً، في عام 2024، أطلقت شركة Acree AI نموذجاً اسمه Arcee-Meraj مصمَّماً للعمل مع اللهجات العربية بدقة أكبر من النماذج العامة.[3] والنماذج الصينية كـ DeepSeek وQwen باتت تُظهر تكافؤاً ملحوظاً في الأداء بين العربية والإنكليزية — مما يعني أن الاحتكار الأمريكي لطريقة “التفكير” في هذه النماذج ليس قدراً ثابتاً، بل هو نتاج لحظة تاريخية بعينها في صناعة الذكاء الاصطناعي.

ما أراه أنا في هذا كله

عدت إلى مشهد من تجربتي الشخصية التي ذكرتها في المقالة الأولى. حين أبدأ محادثة جديدة وأكتب بالفصحى، النموذج — أي نموذج — لا يسألني: “من أي مكان أنت؟ ما لهجتك؟ ما سياقك الثقافي؟” بل يُعطيني الإعداد الافتراضي. والإعداد الافتراضي للعربية في معظم النماذج هو خليط يغلب عليه الطابع الخليجي-الرسمي — تماماً كما أن إعداد الإنكليزية الافتراضي هو أمريكي-قياسي.

لكن الأمر الذي يستوقفني فعلاً ليس وجود هذا الإعداد الافتراضي — بل سرعة تخليه عنه. لا يحتاج الأمر كثيراً: جملتان أو ثلاث بأسلوب معين، كلمة مفتاحية من لهجة محددة، إشارة إلى مرجع ثقافي محلي — وينتقل النموذج. هل هذا يعني أن التحيز سطحي؟ ربما. أم يعني أن التكيّف سريع لأن النموذج يبحث دائماً عن المزيد من السياق ليُضيّق الفجوة؟ هذا السؤال بالذات هو ما ستحاول المقالة الرابعة في هذه السلسلة الإجابة عنه — حين نتكلم عن الذاكرة والتخصيص.

أما الآن، فالسؤال المعلّق هو: إذا كانت الإنكليزية الأمريكية القياسية هي اللهجة الأكثر حضوراً، والعربية الخليجية هي الأكثر توثيقاً — فأين تقع العربية بكل لهجاتها العشرين في هذا المشهد؟ وهل “التحيز للعربية الخليجية” داخل العربية يشبه في طبيعته “التحيز للأمريكية القياسية” داخل الإنكليزية — أم هو أعمق وأكثر تعقيداً؟

هذا بالضبط موضوع المقالة التالية. (راجع مقالتنا: كيف يتعلم الذكاء الاصطناعي منك — وماذا يعرف عنك فعلاً)

المقالة الثالثة: اللغة العربية هي عشرون لغة ضمن لغة واحدة، على الأقل


المراجع

  1. Fleisig, E., Smith, G., Bossi, M., Rustagi, I., Yin, X., & Klein, D. (2024). Linguistic Bias in ChatGPT: Language Models Reinforce Dialect Discrimination. Berkeley Artificial Intelligence Research (BAIR) Lab. نُشرت سبتمبر 2024. bair.berkeley.edu/blog/2024/09/20/linguistic-bias
  2. Hofmann, V., Kalluri, P. R., Jurafsky, D., & King, S. (2024). Dialect prejudice predicts AI decisions about people’s character, employability, and criminality. Nature, 633(8028), 147–154. nature.com/articles/s41586-024-07856-5
  3. Nature News Feature. “Large language models are biased — local initiatives are fighting for change.” November 2025. nature.com/articles/d41586-025-03891-y
  4. Chomsky, N. (1999). Profit Over People: Neoliberalism and Global Order. Seven Stories Press. — للمزيد عن نقد تشومسكي للهيمنة الثقافية الأمريكية.

american flag speech bubble language diversity

Similar Posts

Leave a Reply

Your email address will not be published. Required fields are marked *