اللغة العربية هي عشرون لغة ضمن لغة واحدة، على الأقل
أنا دمشقي وأقود فريقاً لتدريب نماذج ذكاء اصطناعي للسوق الخليجي. ليس في هذا نفاق — هذا سوق. والسوق هو ما يُحدد أي لهجة تتعلمها الآلة وأيها تنسى. المقالة الثالثة في سلسلة “لغة الآلة” تتناول العربية بوصفها عشرين لغة في لغة واحدة — وتسأل: من المسؤول عن التحيز؟
اعترافٌ شخصيٌ أبدأ به
أنا دمشقي. لهجتي الشامية هي اللغة التي أفكر بها حين لا أفكر — تلك اللغة التي تسبق الكلمات، التي تخرج تلقائياً حين أتفاجأ أو أضحك أو أنسى أنني أُراقب نفسي. ومع ذلك، منذ فترة وأنا أقود فريقاً لتدريب نماذج ذكاء اصطناعي مخصصة للسوق الخليجي. نصوص، حوارات، تقييمات لغوية — كل هذا بلهجة ليست لهجتي الأم، لخدمة سوق ليس سوقي الأصلي.
ليس في هذا نفاق. هذا عمل، وهذا سوق. الطلب من هناك، والعرض يأتي من حيث يجد العمل. الفريلانسرون الخليجيون الراغبون في هذا النوع من التدريب يُعدّون على أصابع اليد الواحدة — فيما يمتلئ السوق بمن هم مثلي تماماً: مترجمون وكتّاب من لهجات أخرى يُنتجون محتوى خليجياً لأن المشاريع تدفع، ولأن دول الخليج تستثمر بمليارات في هذا الاتجاه تحديداً.
هذا الاعتراف الشخصي هو باب المقالة الثالثة — لأنه يُجسّد بصورة حية الفكرة التي سنصل إليها في نهايتها: التحيز اللغوي في الذكاء الاصطناعي لا ينبع من الذكاء الاصطناعي. ينبع منّا.
عشرون لغةٍ تحت سقفٍ واحد
حين نقول “العربية” نتصرف كأننا نتحدث عن لغة واحدة متجانسة. لكن نور الحسن، مؤسسة شركة Arabic.ai المتخصصة في نماذج اللغة العربية، تصفها بطريقة أكثر دقة: العربية ليست لغةً واحدة، بل هي عائلة من اللهجات المتراكبة فوق قاعدة كلاسيكية عميقة، وكل لهجة قد تمتلك كلمة مختلفة تماماً لتعبير الشيء ذاته.[1]
الكلمة الصغيرة “بس” مثال بسيط لكنه صادم: في مصر تعني “فقط”، وفي الشام تعني “لكن”.[1] كلمة واحدة، معنيان متعاكسان تقريباً، في دولتين تشتركان في تاريخ ولغة فصحى وحضارة ممتدة. الذكاء الاصطناعي الذي يخلط بينهما لا يُخطئ في اللغة — يُخطئ في الهوية.
والأصعب من الكلمات: الإيقاع، والمرجعية، والضمني الثقافي. لبناني يقول “يسلمو إيدك” لا يُعبّر عن الشكر فقط — يُحيّي روحاً في صانع الشيء. يمني يقول “والله زين” لا يُثني فحسب — يُدخل الله شريكاً في التقدير. هذه ليست ترجمات، هي عوالم مختلفة بمفاتيح ثقافية لا تفتح إلا من الداخل. ولا يوجد حتى الآن ذكاء اصطناعي عام يُتقن هذه المفاتيح كلها.
الأرقام التي تُخجل
العربية لغة 491 مليون متحدث. إنها رابع أكثر اللغات استخداماً على الإنترنت. ومع ذلك، لا تتجاوز حصة العربية من إجمالي النصوص المتاحة للتدريب عبر الإنترنت 1%، ومعظم هذه النسبة الضئيلة هي عربية فصحى رسمية — لغة الأخبار والحكومة — لا لغة الحياة اليومية بلهجاتها الحية.
وفي بحوث معالجة اللغات الطبيعية (NLP)، الصورة لا تختلف كثيراً. وصف الباحث كريم درويش من فريق فنار بجامعة حمد بن خليفة القطرية المشكلة بجملة واحدة قاسية: “نماذج اللغة هي مرآة قدراتنا البحثية والابتكارية.” أي أن فقر العربية في الذكاء الاصطناعي هو مرآة لفقرنا البحثي قبل أن يكون مرآة لتحيّز الشركات الأجنبية.
الفجوة الأكثر إيلاماً هي في التعرف على الكلام المنطوق. يقول أمصل كابيتانوفيتش، رئيس شركة Infobip في السعودية: “لبناني وسعودي قد يستخدمان كلمات مختلفة ويتحدثان بسرعات مختلفة، مما يجعل من الصعب على نموذج واحد أن يتعرف على الكلام المنطوق بدقة متسقة.” والأدهى أن دراسة نشرتها دورية JMIR Medical Informatics عام 2025 وجدت أن النماذج العربية ما زالت تتأخر عن الإنكليزية بنسبة 10 إلى 20 بالمئة في المهام المعقدة.
مصرية أم خليجية؟ سؤال خاطئ
في المقالة السابقة قلنا إن العربية الخليجية هي الأكثر توثيقاً رقمياً. لكن الصورة الحقيقية أكثر تعقيداً من ذلك — وأكثر إثارةً للتفكير.
العربية المصرية تهيمن ثقافياً بلا منازع. هيمنة دام بناؤها نصف قرن من السينما والتلفزيون والأغنية — من أم كلثوم إلى أفلام الأبيض والأسود إلى المسلسلات التي يتابعها العالم العربي من المغرب إلى الكويت. أثر هذا الحضور على نماذج الذكاء الاصطناعي بشكل مباشر: التمثيل المفرط للعربية المصرية في بيانات التدريب أدى على الأرجح إلى تضخم الأداء في هذه اللهجة تحديداً. أي أن الذكاء الاصطناعي “يفهم” المصرية جزئياً لأن أم كلثوم وعادل إمام علّماه قبل أن تُعلّمه أي شركة تقنية.
أما العربية الخليجية فهيمنتها من نوع آخر تماماً: هيمنة اقتصادية ورقمية. دول الخليج العربي تمتلك أعلى معدلات اختراق الإنترنت في المنطقة — الكويت والإمارات تقتربان من 100%.[2] هذا يعني محتوى رقمياً مكتوباً أوفر، ومنصات توظيف أكثر نشاطاً، ومواقع تجارية أكثر كثافة، وحضوراً على وسائل التواصل أعمق — كل هذا يُغذّي بيانات التدريب بشكل غير مباشر لكنه مستمر.
إذن ليست قضية “أي لهجة أفضل” — بل قضية أي نوع من الحضور يُغذّي النماذج: الثقافي/الإعلامي الذي تقوده مصر، أم الرقمي/الاقتصادي الذي تقوده الخليج. والنتيجة لهجات أخرى تقع بين المطرقتين: الشامية والمغربية واليمنية والسودانية تكاد تغيب عن بيانات التدريب، رغم أن متحدثيها بالملايين.
قانون العرض والطلب يُحدد لغة الآلة
هنا نصل إلى الفكرة التي تجعل قصتي الشخصية أكثر من مجرد تفصيل طريف. ما يحدث في سوق الذكاء الاصطناعي العربي ليس تحيزاً ثقافياً خفياً — هو قانون السوق يعمل بكفاءة تامة وبشفافية مزعجة.
المملكة العربية السعودية وحدها أعلنت عن مبادرة GAIA بمليار دولار لتسريع تطوير الذكاء الاصطناعي التوليدي، فيما تضخ صناديقها السيادية مليارات في البنية التحتية للذكاء الاصطناعي. الإمارات تُموّل مشروع Stargate بشراكة مع OpenAI عبر صندوق MGX.[3] السعودية أعلنت “مشروع التسامي” بمئة مليار دولار لتحويل المملكة إلى قوة عالمية في الذكاء الاصطناعي. قطر تطور نموذج “فنار” عبر مركز قطر لبحوث الحوسبة. البحرين تُشرّع أول قانون إقليمي لتنظيم الذكاء الاصطناعي.[3]
والأثر العملي لهذا الاستثمار الهائل؟ صناديق الثروة السيادية والكيانات المدعومة حكومياً في الإمارات والسعودية ضخّت مليارات في البنية التحتية للذكاء الاصطناعي، بما فيها مراكز البيانات الضخمة والشراكات الاستراتيجية مع شركات كـ Nvidia. والمفارقة المذهلة أن نموذج جيس (Jais) الإماراتي — الذي يُعدّ من أكثر النماذج العربية تطوراً — اضطر للاعتماد على أكثر من 70% من محتوى تدريب إنكليزي، مما أضعف أداءه في مهام التفكير العليا باللغة العربية. حتى النموذج المصنوع لخدمة العربية بُني على أساس إنكليزي.
الاستثمار الخليجي الهائل لا يُصحح تحيز الذكاء الاصطناعي نحو العربية الخليجية — هو يُعمّقه ويُضفي عليه شرعية السوق. لكنه في الوقت ذاته يُصحح الفجوة بين العربية والإنكليزية. تناقض مثير لا إجابة جاهزة له.
فأين التحيز؟ في الذكاء الاصطناعي أم فينا؟
أعود إلى نفسي — الدمشقي الذي يُدرّب نماذج خليجية. لماذا أفعل هذا؟ ليس لأن العربية الخليجية أجمل أو أهم أو أحق بالوجود في أي ميزان لغوي. بل لأن العقد هناك، والعميل هناك، والمشروع يدفع. أنا لا أتعمد إقصاء الشامية أو اليمنية من قاعدة بيانات الذكاء الاصطناعي — لكنني بشكل عملي أُغني لهجة واحدة وأُفقر غيرها. وأنا واحد من آلاف يفعلون الشيء ذاته.
هذا هو التحيز الحقيقي: لا خوارزمية تكرهك ولا نموذج يُقرر أن لهجتك أقل شأناً. مجرد آلاف القرارات الصغيرة — فريلانسر يقبل مشروعاً، شركة تستجيب لطلب سوق، حكومة تستثمر في تقنية تخدم مواطنيها — تُراكم لتُنتج نموذجاً يُشبه من أنفق أكثر على تشكيله.
نعوم تشومسكي قال مرة إن السلطة لا تحتاج نية خبيثة لكي تعمل — تحتاج فقط هياكل تُسهّل بعض الخيارات على حساب خيارات أخرى.[4] سوق الذكاء الاصطناعي العربي هو هذه الهياكل بعينها: لا عداء للشامية أو اليمنية، لكن البنية الاقتصادية تجعل تمويل هذه اللهجات أصعب وأقل إغراءً. والنتيجة تحيّز بلا متحيّز — وهو ربما أصعب أنواع التحيز في المواجهة.
ما الحل؟
ثمة بصيص نورٍ حقيقي في آخر هذا النفق، وليس مجرد تفاؤل مصطنع. روبين فوغد، رئيس استثمارات الشرق الأوسط في إحدى شركات التقنية، يرى أن هذا الفقر في بيانات اللهجات يُمثّل “فجوةً هائلة وفرصةً هائلة في آنٍ واحد: من يبني أفضل نماذج للعربية سيحصل على ميزة بيانات استراتيجية في سوق ضخم غير مخدوم.”
ومن الإمارات يأتي فالكون عربي مصمم للتعامل مع طيف من الفصحى إلى الشامية. من السعودية يأتي ALLAM وMLLaM ومولهم. من قطر يأتي فنار. من مصر تأتي Intella. ويقول الدكتور درويش من قطر: “بناء نماذج لغوية عربية قوية ليس ترفاً تكنولوجياً، بل ضرورة استراتيجية لضمان أن يكون للعالم العربي صوت في تشكيل مستقبل الذكاء الاصطناعي.”
لكن كل هذه النماذج — في غالبيتها — تخدم أولاً السوق الذي موّلها. وهذا يعني أن اليمني والسوداني والمغربي والشامي سيظلون ينتظرون دورهم. ليس لأن أحداً يكرههم — بل لأن السوق لم يصلهم بعد.
هذا هو الفرق الجوهري بين التحيز والإقصاء: الأول اختيار، والثاني نتيجة. ولا يهوّن من الثانية أنها ليست الأولى.
في المقالة التالية، سنرى كيف أن الذاكرة المتراكمة — تلك التي يطالب بها الجميع ويحلم بها كل مستخدم — هي التحول الذي قد يُقلب المعادلة كلها. لكنها أيضاً قد تُعمّق التحيز بدلاً من تخفيفه، بطريقة لم يتوقعها أحد. (راجع مقالتنا: كيف يتعلم الذكاء الاصطناعي منك — وماذا يعرف عنك فعلاً)
→ المقالة الرابعة: كلنا يقول يا ليت الذكاء الاصطناعي له ذاكرة أكبر!
المراجع
- Al Hassan, N. (2025). مقتبس في: “Why every Arab country is racing to build its own large language model.” The National، سبتمبر 2025. thenationalnews.com
- Internet World Stats. “Internet Usage Statistics for the Middle East.” 2024. internetworldstats.com
- Digital Bricks. “The State of AI in the Middle East (2025).” digitalbricks.ai
- Chomsky, N. (1999). Profit Over People: Neoliberalism and Global Order. Seven Stories Press.
- Kapetanovic, A. مقتبس في: “Teaching machines to speak Arabic.” Arab News، نوفمبر 2025. arabnews.com
- Darwish, K. مقتبس في: “Why We Need Arabic Language Models.” Nature Middle East، أغسطس 2025. natureasia.com
- Imam, A. (2025). “Arabic LLMs: The AI Frontier You’re Not Paying Attention To.” Medium / The Geopolitical Economist، أكتوبر 2025. medium.com
