إن السرد السائد بأن «اللغة العربية صعبة بالنسبة للذكاء الاصطناعي» هو تبسيط مضلل. إن ضعف أداء الذكاء الاصطناعي باللغة العربية هو نتيجة مباشرة إلى حد ما لفجوة البيانات الكبيرة والمستمرة.
تعد نماذج اللغات الكبيرة (LLMs) نتاجًا للبيانات التي يتم التدريب عليها؛ ويتناسب أداؤها بشكل مباشر مع حجم وجودة تلك البيانات. عندما تكون كمية النص العربي والبيانات المصنفة المستخدمة في التدريب أقل بكثير من اللغة الإنجليزية، تكون النتيجة عجزًا متوقعًا في الدقة والمتانة والمواءمة الثقافية.
مع انتقال الشركات والحكومات في منطقة الشرق الأوسط وشمال إفريقيا من برامج الذكاء الاصطناعي التجريبية إلى أنظمة الإنتاج لخدمة العملاء وذكاء المستندات ومراقبة المخاطر، فإن توقيت هذه المشكلة أمر بالغ الأهمية.
تتفاعل هذه الأنظمة مع المواطنين والعملاء والمنظمين باللغة العربية كل يوم. يؤدي أساس البيانات الضعيف إلى ارتفاع معدلات الخطأ وزيادة تكاليف الإشراف وتآكل الثقة. إن سد فجوة الذكاء الاصطناعي في اللغة العربية هو، أولاً وقبل كل شيء، مشكلة بيانات، وليس مشكلة نمذجة.
مقياس عدم توازن البيانات
يرتبط أداء نماذج الذكاء الاصطناعي الحديثة تجريبيًا بحجم الرموز والأمثلة المصنفة التي تم التدريب عليها. يكشف فحص مجموعات البيانات العامة والخاصة عن عدم التوازن بين العربية والإنجليزية.
في مجموعة OSCAR، وهي مجموعة بيانات ضخمة متعددة اللغات مستمدة من الزحف العام للويب، تمتد بيانات اللغة الإنجليزية إلى مئات الجيجابايت، وتصل في بعض الحالات إلى تيرابايت.
في المقابل، يتم قياس البيانات العربية في نفس المجموعة في عشرات الجيجابايت. يتم تدريب LLMs الرائدين على تريليونات من الرموز، والغالبية العظمى منها باللغة الإنجليزية.
على سبيل المثال، موديل ميتا لاما 2 تم تدريبه على ما يقرب من 2 تريليون توكن، مع كون اللغة الإنجليزية هي اللغة السائدة.
في حين أن هناك جهودًا متزايدة لتطوير نماذج تتمحور حول اللغة العربية، إلا أنها لا تزال تعمل على نطاق أصغر بكثير. مشروع جايس 30B، وهي مبادرة مهمة في مجال الذكاء الاصطناعي العربي، نظمت مجموعة بيانات تضم حوالي مائة مليار رمز عربي ضمن مزيج ثنائي اللغة.
هذه مساهمة ذات مغزى، لكنها لا تزال جزءًا صغيرًا من خطوط الأنابيب متعددة التريليونات المستخدمة في النماذج التي تركز على اللغة الإنجليزية. يصبح التباين أكثر وضوحًا عندما يتعلق الأمر بالبيانات المصنفة، والتي تعد ضرورية لضبط النماذج لمهام محددة.
تحتوي مجموعة بيانات ستانفورد للإجابة على الأسئلة (SQUAD 2.0)، وهي معيار شائع للغة الإنجليزية، على ما يقرب من 150,000 زوج من الأسئلة والأجوبة. مجموعة بيانات الفهم القرائي باللغة العربية (ARCD)، نظيرتها العربية، لديها فقط حوالي 1,400.
توجد فجوة مماثلة في تحليل المشاعر، حيث تحتوي مجموعة بيانات SST-2 الإنجليزية على حوالي 67000 مثال، مقارنة بـ ما يقرب من 10,000 في مجموعة بيانات تغريدات المشاعر العربية (ASTD).
ويتسق هذا العجز في البيانات عبر مجموعة من مهام معالجة اللغة الطبيعية (NLP)، بما في ذلك التعرف على الكيانات المسماة وسلامة الحوار وتصنيف المستندات.
بينما تم تدريب النماذج التأسيسية مسبقًا على مجموعات كبيرة ثنائية اللغة، مثل أرابيرت، أظهروا تحسنًا في البرمجة اللغوية العصبية باللغة العربية، ولا يزال الأداء على نصوص وسائل التواصل الاجتماعي المليئة باللهجة والمجالات المتخصصة مثل الخدمات القانونية والمالية متأخرًا دون بذل جهود توضيحية مستهدفة وواسعة النطاق.
الطبيعة الهيكلية للمشكلة
فجوة البيانات هي مشكلة هيكلية. تستفيد اللغة الإنجليزية من النظام البيئي الناضج لمصادر البيانات، بما في ذلك عمليات الزحف الواسعة والمتاحة للجمهور على الويب، ومعايير البحث الشاملة، وصناعة التعليقات التجارية المتطورة.
في المقابل، تحتوي اللغة العربية على عدد أقل من مجموعات التدريب المسبق التي يمكن الوصول إليها، وعدد أقل من مجموعات البيانات المصنفة، وتباين أكبر عبر اللهجات والنصوص العديدة.
من الناحية العملية، يظهر عدم توازن البيانات هذا على النحو التالي:
- اكتشاف النوايا الهشة في روبوتات الدردشة الخاصة بخدمة العملاء،
- استخراج كيان ضعيف في المستندات القانونية،
- ومعدل أعلى من الهلوسة في خطوط أنابيب الجيل المعزز بالاسترجاع (RAG) التي تعمل في سياق ثنائي اللغة.
يمكن أن يوفر الضبط الدقيق لمعلمات النموذج مثل درجة حرارة أخذ العينات أو مطالبات التكرير تحسينات هامشية، لكنها لا تستطيع تعويض المشكلة الأساسية لتوزيعات البيانات الممثلة تمثيلاً ناقصًا.
تنشأ قضية ثانوية ولكنها مهمة بنفس القدر في البيئات المنظمة. بدون مجموعات بيانات تقييم عربية موثوقة وشاملة، تكون إدارة المخاطر النموذجية غير مكتملة.
غالبًا ما تضطر المؤسسات إلى الموافقة على النماذج القائمة على المقاييس المرتكزة على اللغة الإنجليزية، فقط لاكتشاف تدهور الأداء والتحيز عندما يتم نشر النماذج في القنوات الناطقة باللغة العربية. غالبًا ما تكون جهود المعالجة اللاحقة مخصصة ومكلفة وتستغرق وقتًا طويلاً.
نهج سيادي لسد فجوة البيانات
تتطلب معالجة فجوة الذكاء الاصطناعي العربية نهجًا مدروسًا وسياديًا للبيانات والتعليقات التوضيحية التي تزيد من تغطية البيانات مع حماية خصوصية المواطنين والملكية الفكرية للمؤسسات. يمكن تقسيم هذا النهج إلى ثلاث ركائز رئيسية:
- بناء صناديق البيانات العربية: يجب إنشاء صناديق بيانات وطنية أو قطاعية لجمع بيانات النص العربي والكلام من الأشخاص الذين يمنحون الموافقة. يجب جعل السجلات الحكومية وقرارات المحاكم والقوانين والخدمات عبر الإنترنت والجلسات البرلمانية قابلة للقراءة آليًا ووسمها ببيانات وصفية باللغة العربية أولاً. يمكن لهذه الصناديق منح تراخيص للتدريب النموذجي مع منع تصدير البيانات الشخصية. في الوقت نفسه، يجب رقمنة الأرشيفات الثقافية والصحف والمواد الإذاعية باستخدام أنظمة OCR و ASR التي تم ضبطها للكتابة واللهجات العربية.
- شرح التمويل على نطاق واسع: يجب توجيه التمويل نحو بناء مجموعات بيانات كبيرة وعالية الجودة لمهام البرمجة اللغوية العصبية العربية الرئيسية. يجب أن تتضمن هذه البيانات الشاملة لللهجة للإجابة على الأسئلة، والتعرف على الكيانات، والتلخيص، واكتشاف السمية. هناك حاجة إلى تصنيف واضح لللهجات، وسياسة تصنيف متسقة، وأنطولوجيا خاصة بالمجال للتمويل والرعاية الصحية والقانون. يمكن إجراء التعليقات التوضيحية من خلال التعهيد الجماعي الإقليمي العادل والشراكات مع الجامعات، مع قيام العديد من المراجعين بفحص كل إدخال لضمان دقة اللهجة واتساقها.
- فرض المعاملة بالمثل: إذا تم تدريب نماذج الذكاء الاصطناعي على البيانات العربية العامة، فيجب أن يكون هناك شرط للتقييم العربي الموثق وتحليل الأخطاء. يجب أن تتطلب عمليات الشراء الحكومية والمؤسسية إعداد التقارير باللغة العربية أولاً، مع تقسيم مقاييس الأداء حسب اللهجة والمجال.
بنية بيانات باللغة العربية لأول مرة
بالإضافة إلى استراتيجية البيانات الوطنية، تحتاج الشركات إلى اعتماد بنية بيانات باللغة العربية تعمل على تعزيز وضع البيانات والخصوصية والنسب مع تحسين جودة البرمجة اللغوية العصبية باللغة العربية.
يجب أن تتضمن هذه البنية المكونات التالية:
- الابتلاع والتطبيع: يجب تنظيف محتوى الويب والمؤسسات باللغة العربية لإزالة التكرارات والضوضاء. يجب توحيد النص من خلال تطبيع Unicode والاختلافات الإملائية وعلامات التشكيل الاختيارية. هناك حاجة إلى أداة ترميز باللغة العربية للحد من تجزئة الكلمات. يجب وضع علامة على كل وثيقة أو جملة باللهجة لدعم التدريب والتقييم المستهدفين.
- معالجة الحفاظ على الخصوصية: يجب إلغاء تعريف معلومات التعريف الشخصية، مثل الأسماء والمعرفات الوطنية وأرقام الحسابات المصرفية، باستخدام التعرف على الكيانات المسماة باللغة العربية. يجب الاحتفاظ بالمعلومات الشخصية في نظام آمن وخاص، حيث يتم منح الوصول فقط للأشخاص الذين لديهم إذن. يجب أن تحتوي كل مجموعة بيانات على سجل واضح يوضح مصدر البيانات، وكيف تم تنظيفها أو تغييرها، ومن عمل عليها باستخدام معرفات مخفية، ونماذج الذكاء الاصطناعي التي استخدمتها.
- استراتيجية التدريب الهجين: يجب أن يمزج نهج التدريب بين التدريب المسبق متعدد اللغات وزيادة التعرض للبيانات العربية، يليه التدريب المستمر على اللهجات المنسقة ومجموعات البيانات الخاصة بالمجال. يجب أن يستخدم الضبط الدقيق الخاص بالمهمة بيانات مصنفة عالية الجودة. يمكن للتعلم النشط توجيه التعليقات التوضيحية نحو العينات التي يكون فيها النموذج أقل يقينًا. يمكن أن يساعد الجيل المعزز للاسترجاع (RAG) في تقليل الهلوسة من خلال تأريض المخرجات في مجموعة قابلة للبحث من المستندات العربية. يجب اختبار نظام الاسترجاع على الاستعلامات العربية، بما في ذلك تلك التي تستخدم تبديل الرموز أو الترجمة الحرفية.
- التقييم كخدمة: يجب تطوير مجموعة من مجموعات البيانات المعيارية العربية، مع تفصيل لكل لهجة، ومجموعات فرعية خاصة بالمجال، واختبارات السلامة. يجب تتبع أداء النموذج باستخدام مجموعة من المقاييس، بما في ذلك الدقة والاستدعاء ودرجة F1 والمعايرة. يجب مراقبة انحراف النموذج من خلال مقارنة توزيع بيانات الإنتاج مع بيانات التدريب لمتغيرات النص ومصطلحات اللهجة وأنواع الكيانات.
تأثير البيانات العربية الأفضل على الأعمال
تعمل البيانات العربية الأفضل على التأثير عبر أربع جبهات: التكلفة والإيرادات والمخاطر والقدرة التنافسية.
التكلفة: تتسبب البيانات العربية الضعيفة في الهدر. ترتكب النماذج المدربة على مجموعات بيانات محدودة أو غير متوازنة أخطاء متكررة تتطلب مراجعة بشرية باهظة الثمن. تعمل البيانات الأفضل على تقليل معدلات الأخطاء هذه وتقليل وقت الإشراف والحفاظ على كفاءة العمليات أثناء نموها.
الإيرادات: تربط اللغة العربية أكثر من 400 مليون شخص. تفشل النماذج المبنية أساسًا على اللغة الإنجليزية في التقاط اللهجات والسياق الثقافي. تعمل البيانات العربية عالية الجودة على تمكين الأنظمة التي تعمل عبر اللهجات الخليجية والشامية والمصرية وشمال إفريقيا، مما يفتح أسواقًا جديدة ويحسن التحويل في القنوات الناطقة باللغة العربية.
المخاطر: يطالب المنظمون في منطقة الشرق الأوسط وشمال إفريقيا بالعدالة وقابلية التفسير عبر اللغات. يؤدي الأداء العربي الضعيف إلى مخاطر الامتثال والسمعة. يمكن للنماذج التي تم تدريبها على مجموعات بيانات عربية موثقة وواعية باللهجة أن تُظهر أدلة على الإنصاف والدقة، مما يقلل الاحتكاك مع المنظمين.
القدرة التنافسية: يستغرق إنشاء البيانات وقتًا ولا يمكن نسخها بسهولة. تكتسب المنظمات التي تستثمر مبكرًا في الشركات العربية عالية الجودة وخطوط الأنابيب الواعية باللهجة ميزة دائمة. تتحدث أنظمة الذكاء الاصطناعي الخاصة بهم بشكل طبيعي، وتتعامل مع الفروق الدقيقة، وتكتسب الثقة بشكل أسرع من النماذج العامة.
دعوة لاستراتيجية البيانات السيادية
إن فجوة الذكاء الاصطناعي العربية ليست مسألة حدود تقنية بل بيانات مفقودة. يمكن حلها من خلال العمل المنسق: إنشاء صناديق بيانات سيادية، وتمويل برامج التعليقات التوضيحية واسعة النطاق، وبناء أنظمة بيانات باللغة العربية أولاً. ومن خلال تطبيق هذه المعايير، يمكن لمنطقة الشرق الأوسط وشمال إفريقيا سد فجوة البيانات وإطلاق القيمة الحقيقية للذكاء الاصطناعي لاقتصاداتها وشعوبها.
هذا يستدعي تغيير العقلية. لا ينبغي التعامل مع الذكاء الاصطناعي كصندوق أسود مستورد من الخارج ولكن كقدرة استراتيجية مبنية على بيانات دقيقة ذات أسس ثقافية.
لن يتم قياس التقدم من خلال مدى موثوقية أداء أنظمة الذكاء الاصطناعي باللغة العربية، ومدى اتساق تدقيقها، ومدى وضوح تحسينها لجودة الخدمة والثقة التنظيمية والقدرة التنافسية الإقليمية.
