لماذا يواجه الذكاء الاصطناعي صعوبة في توليد الأصابع بشكل صحيح؟!

نــورا حـسـن في 1/12/2023 - 00:25 ص

يد تمسك بيد أخرى ويظهر بها عدد كثير من الأصابع - مصدر الصورة: تم توليدها بواسطة DALL-E

رغم تقدم التكنولوجيا بخطى سريعة، إلا أن مولدات الصور التي تعتمد على الذكاء الاصطناعي تعاني من فشل ذريع في توليد أيدي بشرية واقعية! فعندما نطلب منها إنشاء ذلك، فإنها تقدم لنا مجموعة من الصور الطريفة والغير ملائمة، لكن لماذا تعجز هذه البرامج عن تصميم أيدي بشرية بشكل صحيح؟!

DALL-E 2.. أول مولد صور بالذكاء الاصطناعي

في شهر يوليو من العام الماضي 2022، قدمت شركة OpenAI برنامجًا جديدًا يُعرف باسم (DALL-E 2)، وهو واحد من أوائل مولدات الصور التي تستخدم الذكاء الاصطناعي وتتوفر للجمهور على نطاق واسع، ويتيح هذا البرنامج للمستخدمين كتابة أي شيء يخطر في بالهم، مثل “قطة تتناول البيتزا” أو “صورة لكلب بودل يشرت كوبًا من العصير” أو “تمثال الحرية يتزلج على الجليد” أو حتى “الموناليزا تتناول الطعام والشراب”، ومن ثم يعرض مجموعة من الصور المطابقة للوصف.

تمثال الحرية يتزلج على الجليد وبجواره الموناليزا تأكل البيتزا وتشرب العصير وبجوارها قطة تأكل البيتزا وكلب يشرب عصير - مصدر الصورة: تم توليدها بواسطة DALL-E — تمثال الحرية يتزلج على الجليد وبجواره الموناليزا تأكل البيتزا وتشرب العصير وبجوارها قطة تأكل البيتزا وكلب يشرب عصير – مصدر الصورة: تم توليدها بواسطة DALL-E

لوحة مسرح أوبرا الفضاء

في هذا الوقت أيضًا طورت الشركتان (Stability AI وMidjourney) -العاملان بمجال الذكاء الاصطناعي- برامجهم الخاصة بتوليد الصور؛ حيث قدمت الأولى برنامج “Stable Diffusion”، في حين قامت Midjourney بإطلاق أداة تحمل اسمها، وفي فترة قصيرة من الزمن تفوق مولد الصور الذكي الخاص بـ Midjourney بشكل كبير؛ حيث حصلت صورة تم إنشاؤها باستخدام هذا البرنامج على جائزة أفضل عمل فني رقمي في معرض ولاية كولورادو الأمريكية في سبتمبر من العام الماضي.

لكن عندما يتعلق الأمر برسم الأيدي، يظهر عجز هذه الأدوات في إنتاج صور واقعية، فهي تقوم بإنشاء أيدي مع زوائد غريبة، مثل الأيدي ذات السبعة أصابع أو تلك ذات الأصبعين فقط، أو حتى التي تنمو منها يد أخرى مثل المتحولين النباتيين، وتظهر أيضًا الأصابع المولدة بالذكاء الاصطناعي غير متناسقة.

مجموعة من الأيادي تلوح وداعًا - مصدر الصورة: تم توليدها بواسطة DALL-E — مجموعة من الأيادي تلوح وداعًا – مصدر الصورة: تم توليدها بواسطة DALL-E

سبب عدم إنشاء اليد بشكل صحيح

تقول “أميليا وينجر بيرسكين” خبيرة التكنولوجيا بجامعة فلوريدا، أن الذكاء الاصطناعي التوليدي الذي يتم تدريبه على مليارات الصور المستخرجة من الإنترنت لا يفهم حقًا ما “اليد”، لا سيما وضعها التشريحي بجسم الإنسان، فهو فقط يقوم بتمثيلها كما تظهر في الصور التي تم تدريبه عليها، وأضافت: أن مظهر اليد في اللوحات والصور واللقطات التي يتعلم منها الذكاء الاصطناعي عادةً ما تكون دقيقة للغاية بحيث تظهر ممسكة بشيء أو مغلقة جزئيًا فلا تتمكن البرامج من رؤية الأصابع بوضوح.

شخص يمسك بهاتفه ويلتقط صورة سيلفي - مصدر الصورة: تم توليدها بواسطة DALL-E — شخص يمسك بهاتفه ويلتقط صورة سيلفي – مصدر الصورة: تم توليدها بواسطة DALL-E

تستكمل “وينجر بيرسكين” قائلة أن الأيدي نادرًا ما تكون واضحة تمامًا بالصور، كأنما نرفع يدينا مع توسيع الأصابع، فإذا كانت كذلك فسيتمكن الذكاء الاصطناعي من إعادة توليدها بشكل مثالي، فهو يحتاج إلى فهم أكثر لما يعنيه جسم الإنسان وكيف ترتبط به الأيدي وما هي قيودها.

يد واحدة تلوح وداعًا - مصدر الصورة: تم توليدها بواسطة DALL-E — يد واحدة تلوح وداعًا – مصدر الصورة: تم توليدها بواسطة DALL-E

يبدو أن الذكاء الاصطناعي ليس وحده من يعاني من مشكلة إنتاج اليد بشكل صحيح، فقبل مئات السنين كان الفنانون يواجهون نفس التحديات وأدركوا أن رسم الأيدي يتطلب مهارة فائقة ودرجة عالية من التفصيل لدرجة أن بعض الفنانين حاولوا تجاوزها خلال الرسم لصعوبة تصويرها، ففي اللوحات اليونانية القديمة واللوحات الأوروبية في العصور الوسطى، كانت تصورات الأيدي البشرية لا تزل مسطحة وتفتقر إلى التعقيدات.

مجموعة من الرسومات اليونانية والأوروبية القديمة بعضها يعود إلى القرن الخامس قبل الميلاد - مصدر الصور - موقع The Westologist وتم دمجهم معًا — مجموعة من الرسومات اليونانية والأوروبية القديمة بعضها يعود إلى القرن الخامس قبل الميلاد – مصدر الصور – موقع The Westologist وتم دمجهم معًا

لم تظهر رُسُوم الأيدي البشرية بشكل جيد إلا في فن عصر النهضة بين القرنين الرابع عشر والسادس عشر في أوروبا، وذلك عندما بدأ فنانون مثل “ليوناردو دافنشي” في دراسة ورسم الأيدي، بما في ذلك عناصرها الهيكلية مثل العظام والأربطة، ومنذ تلك اللحظة بدأ تمثيل الأيدي البشرية بكل تعقيداتها في الرُّسُوم.

رسومات ليوناردو دافنشي لدراسة الأيدي - موقع The Westologist وتم دمجهم معًا — رسومات ليوناردو دافنشي لدراسة الأيدي – موقع The Westologist وتم دمجهم معًا

تقول “وينجر بيرسكين” الخبيرة في مجال الذكاء الاصطناعي، بأن ليوناردو دافنشي كان مهووسًا برسم الأيدي، وأجرى العديد من الدراسات فيها، وفي الوقت نفسه عندما يتم تدريب الذكاء الاصطناعي على الصور فهو يواجه تحديات في تمييز تفاصيل الأيدي مثل الأصابع والمفاصل، خاصةً عندما تكون مخفية أو غير واضحة في الصورة.

بيانات غير واضحة

أيضًا أشار متحدث باسم شركة “Stability AI” إلى أن سوء أداء مولدات الصور للأيدي يرجع جزئيًا إلى البيانات المستخدمة في تدريبها، حيث يظهر البشر أطرافهم بشكل أقل وضوحًا في مجموعات البيانات المتاحة.

بعض الأيادي البشرية في وضعيات مختلفة - مصدر الصورة: تم توليدها بواسطة DALL-E — بعض الأيادي البشرية في وضعيات مختلفة – مصدر الصورة: تم توليدها بواسطة DALL-E

كما أكد “بيتر بنتلي” أستاذ علوم الكمبيوتر بجامعة كوليدج في لندن، على أن الذكاء الاصطناعي يواجه أيضًا صعوبة في تصوير الأيدي بشكل ثلاثي الأبعاد، مما يؤثر على قدرته على تمثيل الهندسة المعقدة لها بشكل دقيق، وأشار إلى أنه بالرغم من فهم الذكاء الاصطناعي للتركيب العام للأيدي، فإنه لا يزال يفتقر إلى فهم شامل لجميع تفاصيلها وتعقيداتها.

“لقد فهموا الفكرة العامة لليد، لها كف وأصابع وأظافر ولكن لا يوجد أي من هذه النماذج يفهم بالفعل ما هو الشيء الكامل”.

يدين متشابكتين - مصدر الصورة: تم توليدها بواسطة DALL-E — يدين متشابكتين – مصدر الصورة: تم توليدها بواسطة DALL-E

تلخيص الأسباب

هناك العديد من الأسباب وراء صراع الذكاء الاصطناعي مع الأيدي، ولكن يمكن تقسيمها إلى فئتين: بيولوجية وتقنية.

الأسباب البيولوجية

يعود التعقيد في توليد اليد بشكل دقيق وصحيح إلى خاصية بيولوجية أساسية هي أنها جزء من الجسم يحتوي على معظم المفاصل في منطقة صغيرة، ونتيجة لذلك يمكن أن يكون لليد الواحدة عشرات المواضع والتمثيلات المختلفة، وهو أمر بعيد عن المثالية لتحديد الأنماط.

بعض المواضع والتمثيلات المختلفة لليد - مصدر الصورة: تم توليدها بواسطة DALL-E — بعض المواضع والتمثيلات المختلفة لليد – مصدر الصورة: تم توليدها بواسطة DALL-E

الأسباب التقنية

ندرة البيانات؛ حيث يعتمد الذكاء الاصطناعي في رسم الأيدي على البيانات التي تم تدريبه عليها، وبذلك إذا كانت مجموعة البيانات المستخدمة تتضمن صورًا واضحة ومتنوعة للأيدي، فمن المرجح أن يكون أداء الذكاء الاصطناعي أفضل عند إنتاجها، والعكس إذا كانت محدودة أو غير كافية يكون الأداء ضعيفًا وغير دقيق، فالخوارزميات عمومًا تفهم أن وجود إصبع واحد يعني عادةً وجود المزيد، كما أنها تفتقر إلى التفاصيل اللازمة لفهم سلوك كل مفصل في الإصبع وموقعه ووظيفة اليد بشكل عام لكل مليار صورة تم توفيرها للتدريب.

يد تمسك بالأخرى وتظهر بعدد أصابع أقل مع الطبيعي - مصدر الصورة: تم توليدها بواسطة DALL-E — يد تمسك بالأخرى وتظهر بعدد أصابع أقل مع الطبيعي – مصدر الصورة: تم توليدها بواسطة DALL-E

في إطار السعي لحل تلك المشكلة أطلقت شركة “Midjourney” في مارس 2023 تحديث جديد لبرنامجها بهدف جعل رسومات الأيدي المولدة بالذكاء الاصطناعي تبدو أكثر واقعية، ويعتقد الخبراء أن الشركة قد أعادت ضبط البيانات لتكون الأولوية للصور التي تكون بها الأيدي واضحة، واستبعاد تلك التي تكون فيها الأيدي مخفية جزئيًا أو كليًا.

فنان يرسم في الهواء الطلق في مدينة نيويورك، على اليسار تم توليدها ببرنامج Midjourney إصدار 4، وعلى اليمين بالإصدار 5 الأحدث - مصدر الصورة: موقع Hyperallergic — فنان يرسم في الهواء الطلق في مدينة نيويورك، على اليسار تم توليدها ببرنامج Midjourney إصدار 4، وعلى اليمين بالإصدار 5 الأحدث – مصدر الصورة: موقع Hyperallergic

يقول خبراء التكنولوجيا أن الشركات والمؤسسات المهتمة بمجال الذكاء الاصطناعي تعمل على تحسين تلك الأدوات في رسم الأيدي، ويتضمن ذلك توسيع مجموعات البيانات المستخدمة للتدريب لتشمل صورًا أكثر تنوعًا ووضوحًا للأيدي، كما يهدف الباحثون إلى تحسين الخوارزميات والنماذج المستخدمة في تدريب الذكاء الاصطناعي لتمثيل ورسم الأيدي بشكل أفضل.

فتاة تجلس مستندة على منضدة وتستند بيدها عليها وتمسك بالأخرى قلم ترسم به يد على ورقة - مصدر الصورة: تم توليدها بواسطة DALL-E — فتاة تجلس مستندة على منضدة وتستند بيدها عليها وتمسك بالأخرى قلم ترسم به يد على ورقة – مصدر الصورة: تم توليدها بواسطة DALL-E

بالرغم من التحديات الحالية فإن التقدم في مجال الذكاء الاصطناعي يتسم بالسرعة والتطور المستمر، لذا فمن المتوقع أن يتم تحسين أداء الذكاء الاصطناعي في رسم الأيدي في المستقبل، وأن يتم تمثيلها بشكل أكثر واقعية ودقة.

الذكاء الاصطناعي الذكاء الاصطناعي التوليدي