كاتب من زوار الموقع
الرئيس التنفيذي ومؤسس شركة GumGum
الآراء التي عبر عنها المساهمون تعبر عن وجهة نظرهم الخاصة.
منذ أربعينيات القرن العشرين، ظهرت تقنية الذكاء الاصطناعي القائمة على الحاسب الآلي، لكن الازدهار الحالي لهذه التقنية غيّر كل شيء حولنا بدءًا من تطوير المساعدين الشخصيين الافتراضيين ومحركات البحث المرئية وصولاً إلى عمليات الترجمة الفورية والمركبات ذاتية القيادة، مما طرح توجهًا جديدًا في هذا المجال. فمنذ فوز لاعب الشطرنج ديب بلو الذي طرحته شركة آي بي إم على بطل الشطرنج الروسي غاري كاسباروف في عام 1997، كان من الضروري أن نتطرق لقضية الآلات في مواجهة الإنجازات البشرية لمعرفة ما إذا كان يمكن للذكاء الاصطناعي أن يقوم بالأمور بشكل أفضل من البشر (إنه الخوف الذي لا مفر منه من التوحد وفقًا لريموند كرزويل).
وكما أظهرت تجارب التعرف على الصور، يمكن لأجهزة الحاسب بسهولة ودقة تحديد مئات السلالات من القطط والكلاب بشكل أسرع وأكثر دقة من البشر، ولكن هل هذا يعني أن الآلات أفضل منا في التعرف على ما في الصورة؟ كما هو الحال مع معظم المقارنات من هذا النوع، على الأقل في الوقت الراهن، فإن الرائج الإجابة بلا، وقليلون هم من يُجيبون بنعم.
قبل أقل من عقد من الزمان، كان التعرف على الصور من قبل الحاسب الآلي أمرًا نسبيًا بينما وجد الذكاء الاصطناعي في العديد من التطبيقات والصور ومحركات البحث خط مشتركًا. حيث أنه يعمل على مزيج من الكلمات الرئيسية المرفقة بالصور والخوارزميات التي برمجها المهندس. وبقدر ما يتعلق الأمر بالمستخدم العادي، فإنه يعمل كالتالي: البحث عن الكعك في خانة “الصور” في صفحة جوجل يوصلك إلى صفحات مليئة بصور المعجنات. لكن تحقيق هذه النتائج لم يكن ممكنًا إلا من خلال عمل بشري شاق عبر إدخال الكلمات المفتاحية المحددة يدويًا لكل صورة وتزويد تعريف لخصائص الكعك المذكورة إلى إحدى الخوارزميات. وهذا أمرٌ لم يكن تحقيقه بالشيء اليسير.
ولكن في الآونة الأخيرة، جعل التقدم، الذي طرأ على استخدام تقنيات التدريب المُعززة بالذكاء الاصطناعي، المعروفة باسم التعلم العميق، من الممكن لأجهزة الحاسب الآلي العثور على الصور وتحليلها وتصنيفها دون الحاجة إلى برمجة بشرية إضافية. حيث يُشبه التعلم العميق عمليات العقل البشري بشكل كبير، فهو يقوم بتطبيق شبكات عصبية اصطناعية كبيرة – وطبقات هرمية من العُقد المترابطة – التي تعيد ترتيب نفسها مع ظهور معلومات جديدة، مما يُمَكن أجهزة الكمبيوتر من تعليم نفسها حرفيًا.
وكما هو الحال مع العقل البشريّ، فإن الشبكات العصبية الاصطناعية تمكّن أجهزة الحاسب الآلي من الحصول على المزيد من البيانات التي تعالجها. وعند تشغيل تقنيات التعلم العميق هذه على أجهزة الحاسب الآلي العملاقة مثل Minwa في بايدو، والتي تضم 72 معالجًا و144 معالج رسوم (GPUs)، يمكنك إدخال كمية هائلة من البيانات. وبالنظر إلى أن هناك أكثر من ثلاثة مليارات صورة يتم مشاركتها عبر الإنترنت يوميًا – فقد شاهد صور جوجل وحدها تحميل 50 مليار صورة في الأشهر الأربعة الأولى من إنشاؤها – يُمكن القول بإن كمية البيانات المتوفرة للتدريب في هذه الأيام هائلة. إذًا، هل كل هذه القوى المحوسبة وأجهزة صنع البيانات أفضل من البشر في التعرف على الصور؟
ليس هناك شك في أن التطورات الحديثة في رؤية الكمبيوتر كانت مثيرة للإعجاب، وسريع كذلك. في عام 2011، تغلب البشر على أجهزة الكمبيوتر بشكل كبير في تحديد الصور، في اختبار يضم ما يقرب من 50.000 صورة يجب تصنيف كل منها ضمن واحدة من 10 فئات (“كلاب”، “شاحنات”، وغيرها). طور باحثون في جامعة ستانفورد برنامجًا لإجراء الاختبار: وكانت النتيجة صحيحة بحوالي 80 في المئة من المرات، في حين أن الخصم البشري في اختبار ستانفورد، المرشح للدكتوراه والباحث أندريه كارباثي، سجل 94 في المئة.
بعد ذلك، في عام 2012، اقترب فريق من مختبر أبحاث جوجل إكس من إتمام هذه المهمة بطريقة مختلفة، وذلك من خلال تغذية 10 ملايين صورة مصغرة تم اختيارها عشوائيًا من مقاطع الفيديو على اليوتيوب إلى شبكة عصبية اصطناعية تضم أكثر من مليار نقطة اتصال موزعة على أكثر من 16000 وحدة معالجة مركزية. وبعد انتهاء فترة التدريب التي استمرت لثلاثة أيام، أعطى الباحثون الجهاز 20.000 صورة تم اختيارها عشوائيًا دون أي معلومات تعريف. وبحث الكمبيوتر عن أكثر الصور تكرارًا والصور التي تم تحديدها بدقة كانت التي تحتوي على وجوه، بنسبة 81.7٪ من المرات، والتي تحتوي على أجزاء الجسم البشري بنسبة 76.7٪ من المرات، والتي تحتوي على قطط بنسبة 74.8٪ من المرات.
في عام 2014 أجرت شبكة ImageNet تحدي التعرف البصري على نطاق واسع في عام 2014، وجاءت جوجل في المقام الأول بابتكارها الشبكة العصبية التحويلية التي أدت إلى معدل خطأ لم يتجاوز 6.6 في المئة، ما يقرب من نصف معدل العام السابق البالغ 11.7 في المئة. ولم يكن الإنجاز مجرد تحديد صحيح للصور التي تحتوي على كلاب، لكن مع تحديد حوالي 200 سلالة مختلفة من سلالات الكلاب في الصور بطريقة صحيحة، وهو الشيء الذي قد لا يتمكن إلا خبراء الكلاب الذين يملكون الكثير من الخبرة من تحقيقه بطريقة سريعة. مرة أخرى، قام كارباثي، وهو مُعنون بشري متخصص والذي تدرب على 500 صورة وتحديد 1500 صورة، بهزيمة الحاسب الآلي بمعدل خطأ 5.1 في المائة.
وقد استمر هذا الرقم القياسيّ حتى فبراير 2015، عندما أعلنت شركة مايكروسوفت أنها كسرت الرقم القياسي البشري بمعدل خطأ يبلغ 4.94٪. وبعد ذلك ببضعة أشهر فقط، في ديسمبر، كسرت شركة مايكروسوفت رقمها القياسي مرة أخرى بمعدل خطأ يبلغ 3.5٪ في أحدث تحدي على شبكة ImageNet.
تساعد خوارزميات التعلم العميق الحاسب الآلي على التغلب على البشر في تنسيقات بصرية أخرى. وفي العام الماضي، قام فريق من الباحثين في جامعة كوين ماري بلندن بتطوير برنامج يسمى Sketch-a-Net، والذي يحدد الأشياء الموجودة في الرسومات. حدد البرنامج بشكل صحيح 74.9 في المئة من الرسومات التي حللها، في حين أن البشر المشاركين في الدراسة حددوا الأشياء بشكل صحيح في الرسومات بنسبة 73.1 في المئة من المرات. لم يكن ذلك مثيرًا للإعجاب، ولكن كما ورد في المثال السابق مع سلالات الكلاب، كان الحاسب الآلي قادرًا على تحديد نوع الطائر الذي تم رسمه بنسبة 42.5 في المائة من المرات بشكل صحيح، وهو معدل دقة يقارب ضعف ما حققه الأشخاص المشاركين في الدراسة، حيث لم يحققوا سوى 24.8 في المئة.
هذه الأرقام مثيرة للإعجاب، لكنها لا تروي القصة كاملة. “حتى أذكى الآلات لا تزال عمياء” ، قال خبير الرؤية الحاسوبية فاي فاي لي في مؤتمر تيد توك لعام 2015 حول التعرف على الصور. نعم، ساعدت تقنيات الشبكات العصبية التحويلية والتعلم العميق في تحسين معدلات الدقة في رؤية الكمبيوتر – بل مكنت الآلات من كتابة تعليقات دقيقة بشكل مدهش للصور – لكن الآلات لا تزال تتعثر في الكثير من المواقف، خاصة عندما يكون من المطلوب سياق أكثر أو خلفية أعمق أو علاقة نسبية أقوى. تتعثر أجهزة الحاسب الآلي عندما يكون جزء فقط من الكائن في الصورة – وهو السيناريو المعروف باسم الانسداد – فقد تواجه مشكلة في معرفة الفرق بين رأس الفيل وجذع الشجرة وإبريق الشاي. وبالمثل، فإنها تتعثر عند التمييز بين تمثال رجل على حصان ورجل حقيقي على حصان، أو تُخطئ في صورة طفل يُمسك بفرشاة أسنان مع طفل يُمسك بعصا البيسبول. ودعونا لا ننسى، نحن نتحدث فقط عن تحديد الأشياء اليومية الأساسية – مثل القطط والكلاب – في الصور.
لا تزال أجهزة الكمبيوتر غير قادرة على تحديد بعض الصور التي تبدو بسيطة (بالنسبة إلى البشر) مثل هذه الصورة المتكونة من الخطوط الصفراء والسوداء، والتي يبدو أن أجهزة الكمبيوتر تعتقد أنها حافلة مدرسية. لا عجب في أن هذه التكنولوجيا لا تزال في مهدها. بعد كل شيء، استغرق العقل البشري 540 مليون سنة ليتطور إلى شكله الحالي عالي القدرة.
والأمر الذي تتفوق فيه أجهزة الكمبيوتر هو فرز كميات هائلة من البيانات ومعالجتها بسرعة، والتي تُصبح في متناول اليد عندما، على سبيل المثال، يحتاج أخصائي الأشعة إلى تضييق قائمة الأشعة السينية الخاصة بالأمراض الطبية المحتملة أو عندما يريد أحد المسوقين العثور على جميع الصور ذات صلة بعلامته التجارية على شبكات التواصل الاجتماعي. قد تظل الأشياء التي يحددها الكمبيوتر بدائية – صورة لتجويف أو شعار – ولكنه يحددها من بين مجموعة أكبر من الصور وهو يفعل ذلك بسرعة دون الشعور بالملل الذي يشعر به البشر.
لا يزال البشر يتمتعون بفرص أفضل، ويمكنهم أن يخبروكم على الأرجح بصورة معينة يختارونها بسبب الفطرة الأساسية السليمة. أما بالنسبة إلى المهام اليومية، لا يزال لدى البشر قدرات بصرية أفضل بكثير من أجهزة الكمبيوتر.
ومع ذلك، فإن التقنية الواعدة بالتعرف على الصور ورؤية الحاسب الآلي بشكل عام عملاقة، خاصة عندما ينظر إليها كجزء من الصورة الأكبر للذكاء الاصطناعي. قد لا تكون أجهزة الحاسب الآلي منطقية، ولكن لديها إمكانية الوصول المباشر وعلى الفور إلى البيانات الكبيرة، وأجهزة الاستشعار، ونظام تحديد المواقع، والكاميرات، والإنترنت، على سبيل المثال لا الحصر. بدءًا من مساهمة الروبوتات في الإغاثة في حالات الكوارث وتجنب الأجسام الكبيرة أمام السيارات إلى التحقيقات الجنائية ذات التقنية العالية والواقع المُعزز وطفرات الألعاب، ولعبة بوكيمون جو، قد يكمن مستقبل رؤية الكمبيوتر في أشياء لا يستطيع البشر (أو لن يستطيع البشر) القيام بها. هناك شيء واحد يمكننا التأكد منه هو: أن الأمر لن يستغرق 540 مليون سنة لتحقيق ذلك.