رغم تقدم التكنولوجيا بخطى سريعة، إلا أن مولدات الصور التي تعتمد على الذكاء الاصطناعي تعاني من فشل ذريع في توليد أيدي بشرية واقعية! فعندما نطلب منها إنشاء ذلك، فإنها تقدم لنا مجموعة من الصور الطريفة والغير ملائمة، لكن لماذا تعجز هذه البرامج عن تصميم أيدي بشرية بشكل صحيح؟!
DALL-E 2.. أول مولد صور بالذكاء الاصطناعي
في شهر يوليو من العام الماضي 2022، قدمت شركة OpenAI برنامجًا جديدًا يُعرف باسم (DALL-E 2)، وهو واحد من أوائل مولدات الصور التي تستخدم الذكاء الاصطناعي وتتوفر للجمهور على نطاق واسع، ويتيح هذا البرنامج للمستخدمين كتابة أي شيء يخطر في بالهم، مثل “قطة تتناول البيتزا” أو “صورة لكلب بودل يشرت كوبًا من العصير” أو “تمثال الحرية يتزلج على الجليد” أو حتى “الموناليزا تتناول الطعام والشراب”، ومن ثم يعرض مجموعة من الصور المطابقة للوصف.
لوحة مسرح أوبرا الفضاء
في هذا الوقت أيضًا طورت الشركتان (Stability AI وMidjourney) -العاملان بمجال الذكاء الاصطناعي- برامجهم الخاصة بتوليد الصور؛ حيث قدمت الأولى برنامج “Stable Diffusion”، في حين قامت Midjourney بإطلاق أداة تحمل اسمها، وفي فترة قصيرة من الزمن تفوق مولد الصور الذكي الخاص بـ Midjourney بشكل كبير؛ حيث حصلت صورة تم إنشاؤها باستخدام هذا البرنامج على جائزة أفضل عمل فني رقمي في معرض ولاية كولورادو الأمريكية في سبتمبر من العام الماضي.
لكن عندما يتعلق الأمر برسم الأيدي، يظهر عجز هذه الأدوات في إنتاج صور واقعية، فهي تقوم بإنشاء أيدي مع زوائد غريبة، مثل الأيدي ذات السبعة أصابع أو تلك ذات الأصبعين فقط، أو حتى التي تنمو منها يد أخرى مثل المتحولين النباتيين، وتظهر أيضًا الأصابع المولدة بالذكاء الاصطناعي غير متناسقة.
سبب عدم إنشاء اليد بشكل صحيح
تقول “أميليا وينجر بيرسكين” خبيرة التكنولوجيا بجامعة فلوريدا، أن الذكاء الاصطناعي التوليدي الذي يتم تدريبه على مليارات الصور المستخرجة من الإنترنت لا يفهم حقًا ما “اليد”، لا سيما وضعها التشريحي بجسم الإنسان، فهو فقط يقوم بتمثيلها كما تظهر في الصور التي تم تدريبه عليها، وأضافت: أن مظهر اليد في اللوحات والصور واللقطات التي يتعلم منها الذكاء الاصطناعي عادةً ما تكون دقيقة للغاية بحيث تظهر ممسكة بشيء أو مغلقة جزئيًا فلا تتمكن البرامج من رؤية الأصابع بوضوح.
تستكمل “وينجر بيرسكين” قائلة أن الأيدي نادرًا ما تكون واضحة تمامًا بالصور، كأنما نرفع يدينا مع توسيع الأصابع، فإذا كانت كذلك فسيتمكن الذكاء الاصطناعي من إعادة توليدها بشكل مثالي، فهو يحتاج إلى فهم أكثر لما يعنيه جسم الإنسان وكيف ترتبط به الأيدي وما هي قيودها.
يبدو أن الذكاء الاصطناعي ليس وحده من يعاني من مشكلة إنتاج اليد بشكل صحيح، فقبل مئات السنين كان الفنانون يواجهون نفس التحديات وأدركوا أن رسم الأيدي يتطلب مهارة فائقة ودرجة عالية من التفصيل لدرجة أن بعض الفنانين حاولوا تجاوزها خلال الرسم لصعوبة تصويرها، ففي اللوحات اليونانية القديمة واللوحات الأوروبية في العصور الوسطى، كانت تصورات الأيدي البشرية لا تزل مسطحة وتفتقر إلى التعقيدات.
لم تظهر رُسُوم الأيدي البشرية بشكل جيد إلا في فن عصر النهضة بين القرنين الرابع عشر والسادس عشر في أوروبا، وذلك عندما بدأ فنانون مثل “ليوناردو دافنشي” في دراسة ورسم الأيدي، بما في ذلك عناصرها الهيكلية مثل العظام والأربطة، ومنذ تلك اللحظة بدأ تمثيل الأيدي البشرية بكل تعقيداتها في الرُّسُوم.
تقول “وينجر بيرسكين” الخبيرة في مجال الذكاء الاصطناعي، بأن ليوناردو دافنشي كان مهووسًا برسم الأيدي، وأجرى العديد من الدراسات فيها، وفي الوقت نفسه عندما يتم تدريب الذكاء الاصطناعي على الصور فهو يواجه تحديات في تمييز تفاصيل الأيدي مثل الأصابع والمفاصل، خاصةً عندما تكون مخفية أو غير واضحة في الصورة.
بيانات غير واضحة
أيضًا أشار متحدث باسم شركة “Stability AI” إلى أن سوء أداء مولدات الصور للأيدي يرجع جزئيًا إلى البيانات المستخدمة في تدريبها، حيث يظهر البشر أطرافهم بشكل أقل وضوحًا في مجموعات البيانات المتاحة.
كما أكد “بيتر بنتلي” أستاذ علوم الكمبيوتر بجامعة كوليدج في لندن، على أن الذكاء الاصطناعي يواجه أيضًا صعوبة في تصوير الأيدي بشكل ثلاثي الأبعاد، مما يؤثر على قدرته على تمثيل الهندسة المعقدة لها بشكل دقيق، وأشار إلى أنه بالرغم من فهم الذكاء الاصطناعي للتركيب العام للأيدي، فإنه لا يزال يفتقر إلى فهم شامل لجميع تفاصيلها وتعقيداتها.
“لقد فهموا الفكرة العامة لليد، لها كف وأصابع وأظافر ولكن لا يوجد أي من هذه النماذج يفهم بالفعل ما هو الشيء الكامل”.
تلخيص الأسباب
هناك العديد من الأسباب وراء صراع الذكاء الاصطناعي مع الأيدي، ولكن يمكن تقسيمها إلى فئتين: بيولوجية وتقنية.
الأسباب البيولوجية
يعود التعقيد في توليد اليد بشكل دقيق وصحيح إلى خاصية بيولوجية أساسية هي أنها جزء من الجسم يحتوي على معظم المفاصل في منطقة صغيرة، ونتيجة لذلك يمكن أن يكون لليد الواحدة عشرات المواضع والتمثيلات المختلفة، وهو أمر بعيد عن المثالية لتحديد الأنماط.
الأسباب التقنية
ندرة البيانات؛ حيث يعتمد الذكاء الاصطناعي في رسم الأيدي على البيانات التي تم تدريبه عليها، وبذلك إذا كانت مجموعة البيانات المستخدمة تتضمن صورًا واضحة ومتنوعة للأيدي، فمن المرجح أن يكون أداء الذكاء الاصطناعي أفضل عند إنتاجها، والعكس إذا كانت محدودة أو غير كافية يكون الأداء ضعيفًا وغير دقيق، فالخوارزميات عمومًا تفهم أن وجود إصبع واحد يعني عادةً وجود المزيد، كما أنها تفتقر إلى التفاصيل اللازمة لفهم سلوك كل مفصل في الإصبع وموقعه ووظيفة اليد بشكل عام لكل مليار صورة تم توفيرها للتدريب.
في إطار السعي لحل تلك المشكلة أطلقت شركة “Midjourney” في مارس 2023 تحديث جديد لبرنامجها بهدف جعل رسومات الأيدي المولدة بالذكاء الاصطناعي تبدو أكثر واقعية، ويعتقد الخبراء أن الشركة قد أعادت ضبط البيانات لتكون الأولوية للصور التي تكون بها الأيدي واضحة، واستبعاد تلك التي تكون فيها الأيدي مخفية جزئيًا أو كليًا.
يقول خبراء التكنولوجيا أن الشركات والمؤسسات المهتمة بمجال الذكاء الاصطناعي تعمل على تحسين تلك الأدوات في رسم الأيدي، ويتضمن ذلك توسيع مجموعات البيانات المستخدمة للتدريب لتشمل صورًا أكثر تنوعًا ووضوحًا للأيدي، كما يهدف الباحثون إلى تحسين الخوارزميات والنماذج المستخدمة في تدريب الذكاء الاصطناعي لتمثيل ورسم الأيدي بشكل أفضل.
بالرغم من التحديات الحالية فإن التقدم في مجال الذكاء الاصطناعي يتسم بالسرعة والتطور المستمر، لذا فمن المتوقع أن يتم تحسين أداء الذكاء الاصطناعي في رسم الأيدي في المستقبل، وأن يتم تمثيلها بشكل أكثر واقعية ودقة.