ذكاء اصطناعي لغة عربية

سؤال بدأ بمحادثة عادية جداً

كنت أكتب بالعربية — فصيحة، واضحة، بلا عجلة — وأنتظر. كانت المحادثة عادية من حيث الموضوع، لا شيء استثنائياً يستدعي التأمل. لكن حين جاء الجواب سريعاً وفيه شيء يشبه الفهم، خطر لي سؤال لم أستطع التخلص منه منذ تلك اللحظة بالذات: حين كتبت له بالعربية، أين ذهبت كلماتي؟

أعني ذلك بشكل حرفي تماماً. هل بقيت كلماتي عربيةً طوال مراحل المعالجة كلها، حتى اللحظة الأخيرة قبل أن تُصاغ الإجابة؟ أم أن ثمة شيئاً يحدث في الخفاء — في تلك الطبقات التي لا نراها — يحوّل ما كتبته إلى لغة أخرى، يُعالجه فيها، ثم يُعيده إليّ مُترجَماً مرة أخرى؟

ليس هذا سؤالاً تقنياً بالمعنى الضيّق. أو هو تقني في قشرته الخارجية، لكنه في جوهره سؤال عن شيء أعمق: هل الأداة التي أعمل عليها كل يوم تفهمني حقاً — أم تترجمني أولاً إلى لغة أخرى، تُعالج ترجمتي، ثم تُعيدني إلى نفسي مُعاد تجميعاً؟ وهل الفرق بين الحالتين يستحق القلق أصلاً؟

لم أكن أبحث عن إجابة فلسفية حين بدأت أُفكّر في هذا. كنت أبحث عن فهم عملي بسيط. غير أن الفهم العملي — حين تمضي فيه بصدق — يقودك أحياناً إلى أسئلة لم تكن تنتوي طرحها.

ما تقوله الأبحاث — وما لا تقوله

في عام 2024، نشر باحثون في المعهد التقني الفيدرالي في لوزان (EPFL) ورقةً بحثية أثارت جدلاً واسعاً في أوساط الذكاء الاصطناعي. حملت عنواناً استفزازياً بذكاء: Do Llamas Work in English? — “هل تعمل نماذج اللاما بالإنكليزية؟” وخلاصتها أن النماذج اللغوية الكبرى — تلك التي تدّعي التعددية اللغوية وتُسوَّق على أساسها — تستخدم الإنكليزية داخلياً حتى حين يُخاطَب النموذج بلغة أخرى تماماً.^[1]

ما يعنيه هذا عملياً: حين تكتب للنموذج بالعربية أو الصينية أو السواحيلية، لا يُعالج النموذج كلامك في تلك اللغة مباشرةً. ثمة تحويل خفي إلى الإنكليزية أولاً، ثم يُشكَّل الفهم والإجابة، ثم تجري عملية إعادة ترجمة إلى اللغة التي كتبت بها. الإنكليزية ليست فقط اللغة التي يتحدث بها النموذج — بل هي، وفق هذه النتيجة، اللغة التي يُفكّر بها في الخفاء.

وفي فبراير 2025، جاءت ورقة بحثية بعنوان أكثر صراحة وأقل مجازاً: Do Multilingual LLMs Think In English? — “هل تُفكّر النماذج اللغوية المتعددة بالإنكليزية؟” وجد الباحثون أن فضاء المفاهيم الداخلي للنماذج المدرَّبة على الإنكليزية إنكليزيّ المركز في جوهره، وأن رموز الإنكليزية تظهر في الطبقات العميقة أولاً قبل أن يجري التحويل إلى اللغة المستهدفة.^[2] وفي الشهر ذاته تقريباً، خلصت دراسة من معهد ماساتشوستس للتكنولوجيا إلى نتيجة مشابهة: حين يعالج نموذج ذكاء اصطناعي مدرَّب على الإنكليزية مدخلاً بلغة أخرى، فإنه يمر بمرحلة وسيطة يُفكّر فيها بالإنكليزية قبل أن يُخرج الإجابة النهائية.^[3]

الإنكليزية ليست فقط لغةً يتحدث بها الذكاء الاصطناعي — بل ربما هي اللغة التي يُفكّر بها قبل أن يتكلم بلغتك. وهذا الفرق بين التحدث والتفكير هو ما يستحق التأمل الحقيقي.

والأرقام تُعزّز هذه الصورة وتجعلها أكثر منطقية. بيانات التدريب للنماذج الكبرى تُهيمن عليها الإنكليزية بفارق يصعب استيعابه حين تراه. مجموعة Common Crawl — أحد أكبر المصادر المستخدمة في تدريب هذه النماذج عالمياً — تحتوي على ما يزيد على 2,700 مليار وحدة نصية إنكليزية.^[4] في مقابل هذا الرقم، لغات تحدّث بها عشرات الملايين من البشر على مدى آلاف السنين تجد نفسها بأرقام أصغر بمئات المرات. الإنكليزية ليست فقط أكثر اللغات حضوراً في هذه البيانات — هي الحضور الذي يُعيد تشكيل كل ما حوله، لأن النموذج لا يتعلم اللغات بالتساوي، بل يتعلم في ضوء كل ما سبق من الإنكليزية وعلى خلفيتها.

لكن هنا تحديداً يستوجب التوقف: هل هذا يعني أن النموذج “متحيّز” بالمعنى الذي نفهمه عادةً — أم أن المسألة أكثر تعقيداً من مجرد اتهام بالتحيز؟

الإنترنت نفسه إنكليزيّ الهوى

لفهم حجم الهيمنة الإنكليزية على بيانات الذكاء الاصطناعي، لا بد من خطوة إلى الوراء نرى فيها مشهداً أوسع. الإنترنت — مصدر معظم هذه البيانات — ليس مرآة متوازنة للغات البشر. تشير إحصاءات W3Techs إلى أن الإنكليزية تهيمن على نحو 49-50% من محتوى المواقع الإلكترونية عالمياً، في حين أن المتحدثين بها لا يتجاوزون 17-18% من سكان الأرض.^[5] أي أن الإنكليزية تملك على الإنترنت حضوراً يتجاوز نسبة متحدثيها بثلاثة أضعاف تقريباً.

والأمر لا يتوقف عند الكمية. نوع المحتوى الإنكليزي الموجود على الإنترنت مختلف نوعياً: وثائق أكاديمية، دراسات علمية محكّمة، أرشيفات صحفية، نقاشات فلسفية، روايات أدبية، ويكيبيديا بأكثر من ستة ملايين مقالة إنكليزية مقابل أقل من مليون مقالة عربية. النموذج لا يتدرب فقط على كمية أكبر من الإنكليزية — بل يتدرب على محتوى أكثر تنوعاً وعمقاً وتماسكاً بها.

هذا يعني شيئاً مهماً: حين تسأل النموذج عن مفهوم فلسفي، أو حدث تاريخي، أو مسألة علمية، فإنه يستدعي معرفة بُنيت أساساً على نصوص إنكليزية. الإجابة التي تحصل عليها — حتى حين تأتيك بالعربية — هي في جزء منها ترجمة لكيفية تناول الإنكليزية لذلك الموضوع.

لكن ربما السؤال خاطئ من الأساس

قبل أن نسير بعيداً في اتجاه واحد، ثمة صوت آخر يستحق الإنصات الجاد — لا كحجة مضادة نردّها، بل كاحتمال حقيقي يُعقّد الصورة ويجعلها أكثر أمانة.

نعوم تشومسكي — أحد أكثر اللغويين تأثيراً في القرن العشرين — بنى نظريته الأشهر على فكرة القواعد الكلية (Universal Grammar): أن جميع لغات البشر، على تباينها الظاهر الهائل، تنبع من بنية ذهنية واحدة مشتركة تولد مع كل إنسان كقابلية فطرية للغة، لا كمحتوى لغوي محدد.^[6] وأعاد ستيفن بينكر في كتابه الشهير The Language Instinct (1994) صياغة هذه الفكرة بشكل أوسع وأكثر إقناعاً، مؤكداً أن اللغة غريزة بيولوجية لا مجرد أداة ثقافية مكتسبة — وأن البشر جميعاً يُفكّرون بـ”لغة الفكر” قبل أن يُترجمها كلٌّ منهم إلى لغته.^[7]

فإذا كانت كل اللغات تنبع من بنية ذهنية واحدة، فربما الذكاء الاصطناعي حين “يُفكّر بالإنكليزية” لا يتحيّز بقدر ما يصل إلى تلك الطبقة الأعمق المشتركة — تلك البنية التي لا تنتمي لأحد. ربما المشكلة الحقيقية ليست في اللغة التي يُفكّر بها، بل في الثقافة التي تحمل معها قيمها وتصوراتها ومحدودياتها من خلال النصوص الإنكليزية التي تدرّب عليها.

وهنا يتشعّب السؤال إلى مسارين لا يمكن دمجهما بسهولة: هل “اللغة” و”الثقافة” شيء واحد في هذا السياق؟ هل يمكن أن تُفكّر بالإنكليزية دون أن تحمل تحيزاتها الثقافية؟ أم أن اللغة والثقافة مُلتحمتان إلى حد لا تستطيع فيه الفصل بينهما؟

ما أراه بعيني كل يوم

أمامي ملاحظة شخصية أرويها بما تستحق من جدية، لأنها لا تُدعم حجة واحدة بعينها — بل تقع في المنطقة الرمادية بين الحجج جميعها.

حين أفتح محادثة جديدة مع أي نموذج لغوي كبير — كلود، جيميني، شات جي بي تي — أجد في البداية شيئاً يشبه الغرابة اللطيفة. النموذج يميل إلى المفردات الخليجية في العربية لأني سجلت الدخول من إيميل وضعت فيه أني أقيم في الإمارات، هو يختار تعابير أقرب إلى تلك المنطقة، حتى حين أكتب له بفصحى واضحة آتيةً من دمشق. ليس هذا اتهاماً — هو ببساطة ما تتيحه البيانات: ثم ربما المحتوى العربي الخليجي على الإنترنت أوفر وأكثر توثيقاً مما سواه، فالنموذج يُعطيك ما تدرّب عليه أكثر. (راجع مقالتنا: برومبت اللهجات | كيف تُلزم الذكاء الاصطناعي بالشامية والمصرية والخليجية والمغربية بدقة)

ثم تمضي المحادثة وتطول. وشيئاً فشيئاً، بدون إعلان ولا تنبيه، يبدأ النموذج بالتكيّف. تقلّ المفردات الغريبة، يقترب الأسلوب من طريقتي، يُلاحق النموذج سياقاتي المحلية ومرجعياتي الثقافية. وفي ختام محادثة مطوّلة أو في خضم موضوع مكّنته من التكيّف، أجد أحياناً نصاً يكاد يُشبه طريقة تفكيري بشكل مدهش.

ما الذي حدث بالضبط؟ هل تخلّص النموذج من تحيّزه الإنكليزي-الخليجي وأصبح “يفهمني” فعلاً؟ أم أنه ضبط إعداداته الافتراضية استجابةً للمحادثة الجارية، فأنتج شيئاً يُشبه الفهم دون أن يكون فهماً حقيقياً؟ الفرق بين الحالتين ليس تقنياً فحسب — هو فرق فلسفي عميق بين شيء يتعلم فعلاً وشيء يتكيّف إحصائياً بشكل يُتقنه ويبدو لنا كالتعلم.

التكيّف الإحصائي يُنتج نتيجة تشبه الفهم. والتشابه مقنع جداً حين تعيشه من الداخل. لكن التشابه وحده ليس دليلاً على أنهما الشيء ذاته.

الببغاء العشوائي وحدود الاتهام

في عام 2021، نشرت إيميلي م. بيندر وزملاؤها ورقةً علمية صارت من أكثر الأوراق استشهاداً ونقاشاً في أدبيات الذكاء الاصطناعي الأخلاقي، أسمَوها On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? — “في مخاطر الببغاوات العشوائية: هل يمكن أن تكون النماذج اللغوية كبيرةً أكثر مما ينبغي؟” حجتهم باختصار وأمانة: النماذج اللغوية لا تفهم بالمعنى الحقيقي الكامل للكلمة، بل هي تُجمّع أنماطاً إحصائية هائلة من النصوص وتُنتج سلاسل لغوية دون أي إدراك حقيقي للمعنى أو ارتباط به.^[8]

وإذا صحّت هذه الحجة — وهي لا تزال محلّ نقاش جدي وحقيقي بين الباحثين — فإنها تُعيد رسم حدود المشكلة التي نتحدث عنها بشكل جذري. الذكاء الاصطناعي لا يحمل تحيزاً ثقافياً بالمعنى الذي يحمله الإنسان — لا يُفضّل الإنكليزية لأنه ترعرع فيها وأحبّها وبنى هويته من خلالها. إنه يعكس ما تدرّب عليه، كما تعكس المرآة الوجه الواقف أمامها دون أن تُفضّل وجهاً على آخر. المشكلة إذن — إذا قبلنا هذا المنطق — ليست في “تحيّز الذكاء الاصطناعي”، بل في أننا أعطيناه مرآة انعكست فيها لغة بعينها أكثر بكثير من سائر اللغات.

هذا التمييز الدقيق يُحوّل السؤال بالكامل: من “هل يُفكّر بلغتك؟” إلى “هل رأيتَ نفسك فيه أصلاً؟” ومن “هل هو متحيّز؟” إلى “متحيّز لمن، وبأي معنى، وهل هذا يختلف عن أي أداة أخرى أنتجها الإنسان في تاريخه؟”

هذا السؤال الأخير هو ما ستحاول هذه السلسلة بأكملها الإجابة عنه — لا بإجابة جاهزة، بل بالمشي في السؤال حتى آخره.

ما الذي نبحث عنه فعلاً؟

لا أريد أن أُغلق هذا السؤال بإجابة مبكرة. ما أستطيع قوله الآن — بعد التفكير في هذا من زوايا متعددة — هو أن الأمر لا يشبه ما توقعته في البداية. الذكاء الاصطناعي لا “يُفكّر بالإنكليزية” بالطريقة التي يُفكّر بها إنسان تربّى عليها — لا يحمل ذكرياتها، ولا مشاعرها، ولا إرثها الثقافي الحيّ بكل ما فيه من تناقضات وجماليات ومخاوف. لكنه في الوقت ذاته لا يُفكّر بلغتك بالمعنى الذي قد تحلم به: أن تجد فيه من يرى العالم من نافذتك تماماً، يفهم سياقاتك الضمنية ومرجعياتك غير المعلنة.

بينهما مسافة. وهذه المسافة ليست ثابتة — هي تتقلّص حين تُطوّل المحادثة وتُخصّصها، وتتسع حين تُغلقها وتبدأ من الصفر. وقياس هذه المسافة وفهم طبيعتها هو موضوع ما تبقّى من هذه السلسلة. (راجع مقالتنا: المعنى الضائع — من شوربة الحمام إلى القنبلة الذرية)

في المقالة التالية، سنكتشف أن الإنكليزية نفسها — التي يُفترض أن النموذج “يُفكّر بها” — ليست لغةً واحدة بقدر ما هي عائلة من اللهجات والأساليب والثقافات المتباينة. وأن ما نُسمّيه “تحيّزاً للإنكليزية” قد يكون في الحقيقة تحيزاً لنوع واحد محدد جداً منها — وليس للإنكليزية كلها.

→ المقالة الثانية: هل يفكر الذكاء الاصطناعي باللغة الإنكليزية بلهجة أمريكية؟

المراجع

Wendler, R. et al. (2024). Do Llamas Work in English? On the Latent Language of Multilingual Transformers. EPFL / ETH Zurich. نُشرت في مؤتمر ACL 2024. aclanthology.org/2024.acl-long.820
Tang et al. (2025). Do Multilingual LLMs Think In English? arXiv preprint, February 2025. arxiv.org/abs/2502.05260
MIT Technology Review. “AI models process other languages by ‘thinking’ in English first.” February 2025. technologyreview.com
Common Crawl Foundation, Dataset Statistics. commoncrawl.org
W3Techs. “Usage statistics of content languages for websites.” 2024. w3techs.com
Chomsky, N. (1965). Aspects of the Theory of Syntax. MIT Press.
Pinker, S. (1994). The Language Instinct: How the Mind Creates Language. William Morrow.
Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? FAccT ’21. dl.acm.org/doi/10.1145/3442188.3445922

🌐 اقرأ هذا المقال بالإنكليزية

هل يفكر الذكاء الاصطناعي بلغتك، أم أن الإنكليزية هي لغته الأم؟

سؤال بدأ بمحادثة عادية جداً

ما تقوله الأبحاث — وما لا تقوله

الإنترنت نفسه إنكليزيّ الهوى

لكن ربما السؤال خاطئ من الأساس

ما أراه بعيني كل يوم

الببغاء العشوائي وحدود الاتهام

ما الذي نبحث عنه فعلاً؟

المراجع

يورغن هابرماس | آخر ممثّل لمدرسة فرانكفورت الفكرية

يتيمية ابن زريق البغدادي «لا تعذليه»

ياندكس والجمهور الناطق بالعربية — هل يستحق الاهتمام؟

ولتر ستيس | الفيلسوف الذي عبر الحدود

هل يفكر الذكاء الاصطناعي باللغة الإنكليزية بلهجة أمريكية؟

هل انتهى عصر غوغل؟ بيربلكستي و You.com وفايند ومنصات البحث بالذكاء الاصطناعي

Leave a Reply Cancel reply

سؤال بدأ بمحادثة عادية جداً

ما تقوله الأبحاث — وما لا تقوله

الإنترنت نفسه إنكليزيّ الهوى

لكن ربما السؤال خاطئ من الأساس

ما أراه بعيني كل يوم

الببغاء العشوائي وحدود الاتهام

ما الذي نبحث عنه فعلاً؟

المراجع

Similar Posts

Leave a Reply Cancel reply

Spy On Us