اليوم، سنقوم بسحب الستار عن الشيء الوحيد الذي يحدد ما إذا كان مشروع الذكاء الاصطناعي الخاص بك يحلق إلى القمر أو يتعطل ويحترق: بياناتك.

حول سيغات:
سبغات الله يقود ممارسة البيانات في CNTXT AI. يشغل منصب مدير المنتجات والبرامج الفنية، حيث يقود تطوير الأدوات والفرق ومجموعات البيانات التي تدعم الذكاء الاصطناعي باللغة العربية أولاً.

Q1: لماذا الجميع مهووسون بإعداد البيانات؟ أليس نموذج الذكاء الاصطناعي هو الجزء الأكثر أهمية؟

النموذج مهم. ولكن هذا ليس المكان الذي تنجح فيه معظم المشاريع أو تفشل فيه. من الناحية العملية، يكون العامل المحدد دائمًا هو البيانات. يمكن للنموذج، بغض النظر عن مدى تقدمه، أن يعكس فقط الأنماط في البيانات التي تم التدريب عليها. إذا كانت المدخلات غير كاملة أو غير متسقة أو متحيزة، فستكون المخرجات غير موثوقة. وهذا ليس خطرًا نظريًا، إنه السبب الرئيسي وراء عدم وصول 70-80٪ من مشاريع الذكاء الاصطناعي للمؤسسات إلى عائدها المتوقع.

من منظور الأعمال، هذا أمر بالغ الأهمية. قرارات الذكاء الاصطناعي تغذي العمليات مباشرة. إذا كانت بيانات التدريب لا تتطابق مع ظروف العالم الحقيقي، فسيكون أداء النموذج ضعيفًا. يؤدي ذلك إلى خسارة مالية ومخاطر الامتثال وإلحاق الضرر بالسمعة. غالبًا ما تقلل الشركات من شأن ذلك. يفترضون أن الدقة هي وظيفة الخوارزمية، في حين أنها في الواقع دالة لجودة البيانات.

لذلك عندما تسأل عما إذا كان النموذج هو الشيء الرئيسي، فإن الإجابة هي لا. يتم تحويل النماذج إلى سلعة. يمكنك الوصول إلى بنيات رائعة من موفري المصادر المفتوحة أو السحابة. ما لا يتم تحويله إلى سلعة هو بياناتك. تتعامل الشركات التي تنجح في التعامل مع بياناتها كأصول أعمال أساسية. إنهم يبنون العمليات والفرق حول الحفاظ على هذا الأصل، لأنهم يعرفون أنه الأساس الذي تستند إليه كل مبادرة للذكاء الاصطناعي.

Q2: حسنًا، فهمت ذلك. البيانات مهمة. ولكن ما هي أكبر الأخطاء التي ترى الشركات ترتكبها عندما يتعلق الأمر بإعداد البيانات؟

الخطأ الأول هو افتراض أن الحجم يساوي القيمة. كلاسيكي. الاعتقاد بأنك إذا قمت فقط بإلقاء بيانات كافية على المشكلة، فإن الذكاء الاصطناعي سوف يكتشفها بطريقة سحرية. لذلك، تستمر الشركات في عملية تخزين البيانات. إنهم يجمعون كل شيء، من كل مصدر ممكن، ويخزنونه في بحيرات بيانات ضخمة. لسوء الحظ، ما ينتهي بهم الأمر هو مستنقع البيانات. صاخبة وغير ذات صلة ومليئة بالأخطاء.

تتخذ الشركات الذكية مسارًا مختلفًا. إنهم منسقون. إنهم لا يرحمون بشأن ما يحتفظون به وما يتخلصون منه. إنهم يدركون أن بياناتهم هي انعكاس لأعمالهم. لذلك يتعاملون معها بنفس العناية مثل منتجاتهم أو عملائهم.

الخطأ الثاني هو التعامل مع إعداد البيانات كتمرين لمرة واحدة. ولكن لا شيء يبقى ساكنا. تتغير ظروف العمل. تحولات سلوك العملاء. تتطور المنتجات. يتم تحديث اللوائح. إذا لم تتم مراقبة خط أنابيب البيانات وتحديثه باستمرار، فسيصبح النموذج قديمًا. هذا هو سبب انحراف النموذج. ينجرف النموذج عندما تستمر التنبؤات في الظهور ولكن الدقة تنخفض بشكل مطرد لأن البيانات لم تعد تتطابق مع الواقع. بدون فحوصات الجودة والتحديثات المستمرة، تتدهور حتى أفضل الموديلات.

Q3: بالإضافة إلى هذه الأساسيات، ما الأشياء الأخرى التي غالبًا ما تتجاهلها الشركات في إعداد البيانات؟

«الإنسان مقابل الآلة». هذا خطأ أكثر دقة، لكنه لا يقل أهمية. يعود الأمر إلى سوء إدارة التوازن بين الأتمتة والرقابة البشرية.

تُعد الأتمتة جيدة لتوسيع نطاق المهام مثل إلغاء البيانات المكررة أو محاذاة المخطط أو اكتشاف الحالات الشاذة في مجموعات البيانات الكبيرة. لكن الأتمتة الكاملة بدون مدخلات بشرية تخلق نقاطًا عمياء. إنه يفتقد المشكلات السياقية مثل قواعد العمل الدقيقة أو الفروق الثقافية المخفية في البيانات.

هذا هو المكان الذي يأتي فيه الناس. إنهم يطبقون حكمهم وحدسهم وفهمهم العميق للأعمال لتوجيه العملية. أفضل الممارسات هي الجمع بين الفحوصات الآلية ومراجعة الخبراء من أجل الكفاءة والدقة السياقية.

وربما يكون آخر شيء بالنسبة لي هو عدم الملكية. عادةً ما يتم إعداد البيانات بين فرق تكنولوجيا المعلومات والتحليلات وفرق العمل، مما يعني عدم وضوح المساءلة. لا أحد يتحمل المسؤولية الكاملة عن تحديد المعايير أو الحوكمة أو التحقق من الجودة المستمرة.

من المهم تعيين ملكية واضحة سواء من خلال مديري منتجات البيانات أو عملاء المجال أو فرق الإشراف المخصصة بحيث تتم إدارة الذكاء الاصطناعي الذي يغذي البيانات باستمرار كأصل استراتيجي.

Q4: كل هذا رائع من الناحية النظرية، ولكن كيف يبدو هذا في العالم الحقيقي؟ ما الذي يحدث حقًا في الشركات التي تقوم بهذا بشكل صحيح؟

إنهم بالضبط أولئك الذين انتقلوا من رؤية البيانات كمنتج ثانوي لأعمالهم إلى رؤيتها على أنها المنتج نفسه. كما ذكرنا سابقًا، الملكية. يقومون بتعيين الملكية للأشخاص المسؤولين عن دورة الحياة الكاملة لمجموعة البيانات. إنهم يمتلكون جودة البيانات وقابليتها للاستخدام وقيمتها. إنهم مهووسون بـ «عملائهم» ويقومون باستمرار بجمع التعليقات والتحسين.

مفتاح آخر هو بناء ثقافة ضمان الجودة للبيانات. تقوم أفضل الشركات باختبار بياناتها في كل مرحلة من مراحل خط الأنابيب. من لحظة جمعها، إلى كيفية تنظيفها، إلى كيفية استخدامها. إنهم يتعاملون مع البيانات بنفس تخصص الكود. لديهم اتفاقيات مستوى الخدمة (SLAs) لمنتجات البيانات الخاصة بهم، وهم مسؤولون عن الوفاء بها.

يعد هذا خروجًا كبيرًا عن عقلية «القمامة في الداخل، التخلص من القمامة» السائدة جدًا في العديد من المنظمات. في ثقافة ضمان الجودة للبيانات، تكون البيانات مذنبة حتى تثبت براءتها. إنها ثقافة الشك والاهتمام المستمر بالتفاصيل. وهي الطريقة الوحيدة لبناء هذا النوع من أساس البيانات عالي الجودة المطلوب للذكاء الاصطناعي الناجح.

Q5: ما هي الخطوات المحددة التي أحتاج إلى اتخاذها لإعداد بياناتي لنشر الذكاء الاصطناعي؟ أعطني دليل اللعبة.

أعتقد أن هناك الكثير من كتب اللعب الموجودة بالفعل. يمكنك البحث في Google عن «خطوات إعداد البيانات» والعثور على قائمة مرجعية. لكن قوائم المراجعة تصلك حتى الآن فقط. ما يهم حقًا، إذا كنت جادًا في إدخال نظام في الإنتاج، هو الأسئلة التي تطرحها على نفسك على طول الطريق.

لا تسأل فقط «أين بياناتي؟» اسأل: من يمتلكها، ومن يستخدمها، وهل يثقون بها؟ في نصف الوقت، لا تكمن المشكلة في الوصول. هو أن الناس لا يصدقون الأرقام. إذا لم تتمكن من الإجابة على هذه الأسئلة، فليس لديك مؤسسة.

فيما يتعلق بالجودة، لا تكتفي بـ «هل هي نظيفة؟» عليك أن تسأل: ما هي القرارات التي يمكن أن تتعطل فيها هذه البيانات إذا كانت خاطئة؟ هذه هي الطريقة التي تحدد بها الأولويات. لا توجد شركة لديها الموارد لإصلاح كل حقل في كل نظام. أنت تركز حيث تكلف الأخطاء المال أو الامتثال أو ثقة العملاء.

عند تحويل البيانات، هل لا يزال هذا التحول يعكس واقع الأعمال؟ لقد رأيت فرقًا تعمل على تطبيع البيانات بطرق تزيل الفروق الدقيقة المهمة. والنتيجة هي نموذج مثير للإعجاب تقنيًا وغير مفيد تجاريًا.

أعتقد بشكل عام أن التكتيك الحقيقي هو التركيز على النقاط العمياء: الملكية والثقة وسياق الأعمال والمساءلة والاستجابة. هذا هو العمل الذي لا يقوم به أحد في شريحة، ولكنه ما يبقي عمليات النشر حية في العالم الحقيقي.

Q6: المطهر التجريبي. ما هو ذلك، وكيف أتجنبه؟

آه، المطهر التجريبي. هذه هي المقبرة التي تموت فيها أحلام الذكاء الاصطناعي. إنه المكان الذي تتعثر فيه الشركات في تشغيل ما لا نهاية له من إثبات المفاهيم والبرامج التجريبية التي لا تصل أبدًا إلى الإنتاج. وهو أكثر شيوعًا مما تعتقد.

سأقدم لك نمطًا نموذجيًا. قررت الشركة «تجربة» الذكاء الاصطناعي. إنهم يختارون حالة استخدام، وعادة ما تبدو مثيرة للاهتمام من الناحية الفنية ولكنها ليست بالضرورة مهمة للأعمال. يقومون بتعيين فريق صغير. امنحهم ميزانية محدودة، واطلب منهم «رؤية ما يمكنهم فعله». يقوم الفريق ببناء نموذج. إنه يبشر بالخير في الاختبار، ويشعر الجميع بالحماس. ولكن عندما يحين وقت نشرها في العالم الحقيقي، ينهار كل شيء.

لماذا؟ لأنهم لم يفكروا أبدًا في البنية التحتية. لم يفكروا أبدًا في خط أنابيب البيانات. لم يشركوا المستخدمين النهائيين أبدًا. لم يفكروا أبدًا في الحوكمة أو الامتثال أو قابلية التوسع. لقد قاموا ببناء نموذج أولي جميل، لكنهم لم يبنوا منتجًا.

خطة الهروب لاحقًا متأخرة جدًا ولهذا السبب من المهم البدء بمشكلة تجارية، حيث يمكنك إنشاء قيمة تجارية، وليس فقط ما يبدو مثيرًا للاهتمام. فكر في قابلية التوسع والموثوقية وقابلية الصيانة من البداية. قم بتضمين الجميع في عملية التصميم (العمليات وتكنولوجيا المعلومات والمستخدمين النهائيين). يجب أن يكون لديك فحص لواقع البنية التحتية من اليوم الأول حتى يكون استثمارك منطقيًا.

س 7: لنتحدث عن الفيل في الغرفة: التكلفة. ما المبلغ الذي يجب أن أتوقع استثماره في إعداد البيانات، وكيف يمكنني تبرير ذلك لمجلس الإدارة؟

أول شيء يجب فعله هو التوقف عن الترويج لإعداد البيانات على أنه «تكلفة». ضعها في إطار إدارة المخاطر وحماية عائد الاستثمار. تتفهم المجالس المخاطر. إذا قلت لهم: «يمكننا إنفاق 10 ملايين دولار على مبادرة الذكاء الاصطناعي هذه، ولكن بدون إعداد البيانات المناسبة لدينا فرصة بنسبة 70-80٪ للفشل»، فهذه فكرة خاسرة. ولكن إذا أظهرت أن مبلغ 500 ألف دولار إضافي في إعداد البيانات يقلل من مخاطر الفشل بشكل كبير ويزيد العوائد المتوقعة، فإن المحادثة تتغير. أنت لا تطلب المزيد من المال. أنت تحمي الأموال التي تم الالتزام بها بالفعل.

تحتاج أيضًا إلى تسليط الضوء على الفوائد المخفية. عندما تقوم بتحسين البنية التحتية للبيانات الخاصة بك للذكاء الاصطناعي، فإنك تقوم أيضًا بتحسين التقارير والتحليلات والامتثال واتخاذ القرار عبر المؤسسة. يعد الوصول السريع إلى البيانات الموثوقة أمرًا جيدًا للتمويل والعمليات وفرق العملاء.

س 8: ما زلنا نسمع عن «انحراف البيانات» و «تدهور النموذج». ما هي هذه الأشياء، وكيف يمكنني الحماية منها؟

يعد انحراف البيانات وانحلال النموذج من الأسباب التي تجعل النموذج الذي يعمل بشكل مثالي في الاختبار يمكن أن يفشل بشكل مذهل في الإنتاج. وهذه هي الأسباب التي تجعل أنظمة الذكاء الاصطناعي بحاجة إلى المراقبة والصيانة المستمرة.

يعني الانجراف أن البيانات التي يراها نموذجك اليوم ليست هي نفسها البيانات التي تم التدريب عليها وهناك أنواع مختلفة (أي التغييرات في ميزات الإدخال أو معنى المخرجات أو كيفية تطبيق التسميات) ثم لدينا Decay وهو نتيجة انحراف البيانات وحيث تتآكل دقة النموذج بمرور الوقت.

يحدث هذا في كل الأعمال التجارية. كما قلت في البداية، يتغير سلوك العملاء. تتغير ظروف السوق. اللوائح الجديدة تغير كيفية تسجيل البيانات. يطلق المنافسون منتجات جديدة تغير الطلب. لا يتكيف نموذجك من تلقاء نفسه، بل يستمر في عمل تنبؤات بناءً على الأنماط القديمة. ولأن الانخفاض تدريجي، فإن معظم الشركات لا تلاحظ ذلك حتى يحدث الضرر. تحصل على توقعات خاطئة وتوصيات سيئة وموارد غير مخصصة.

يمكنك منع ذلك باستخدام تقنيات مثل؛ الاختبارات الإحصائية (وغيرها) لاكتشاف التغييرات في توزيع البيانات الخاصة بك. لكن مراقبة الأداء هي النهج الأكثر مباشرة. وعليك إعداد استراتيجية استجابة لها.

الوجبات السريعة الرئيسية:

  • تحدد البيانات، وليس النماذج، نجاح الذكاء الاصطناعي. يتم تحويل النماذج إلى سلعة؛ البيانات عالية الجودة والمدارة جيدًا هي الفرق الحقيقي.

  • بدون الإعداد المستمر للبيانات، يفشل الذكاء الاصطناعي. تفقد معظم المشاريع عائد الاستثمار بسبب المدخلات القديمة أو غير المتسقة أو التي تتم إدارتها بشكل سيئ.

  • إعداد البيانات هو إدارة المخاطر. الاستثمار مقدمًا يقلل من مخاطر الفشل ويحمي عائد الاستثمار ويقوي عملية صنع القرار على مستوى المؤسسة.