كشفت شركة جوجل عن نموذج الذكاء الاصطناعي التوليدي الجديد Veo، القادر على إنشاء مقاطع فيديو عالية الجودة استنادًا إلى المطالبات النصية للمستخدمين، وذلك ضمن فعاليات مؤتمر Google I/O 2024، يعد نموذج Veo إضافة مبتكرة لعالم الذكاء الاصطناعي، حيث يتيح للمستخدمين تحويل أفكارهم النصية إلى مقاطع فيديو متقنة.
قدرات نموذج Veo
يتميز نموذج Veo بقدرته على فهم اللغة الطبيعية والدلالات البصرية بشكل متقدم، مما يمكنه من إنشاء أي فيديو يدور في أذهان المستخدمين، يستطيع النموذج إنتاج مقاطع فيديو تصل مدتها إلى أكثر من دقيقة وبدقة تصل إلى 1080 بكسل، بالإضافة إلى ذلك، يفهم Veo التقنيات السينمائية والبصرية مثل مفهوم الفاصل الزمني (التايم لابس)، مما يجعله أداة قوية لإنشاء محتوى متنوع وجذاب.
التعاون مع دونالد جلوفر واستوديوهات Gilga
لتوضيح قدرات نموذج Veo، تعاونت جوجل مع صانع الأفلام الشهير دونالد جلوفر واستوديوهات Gilga، وتم عرض مقطع فيديو ترويجي يُظهر إمكانيات Veo في محاكاة فيزياء العالم الحقيقي، مما يعكس قدراته في تقديم تجارب بصرية واقعية ومبهرة.
إتاحة نموذج Veo للمستخدمين
سيكون نموذج Veo متاحًا ضمن أداة VideoFX من جوجل لبعض منشئي المحتوى بدءًا من اليوم، بالإضافة إلى ذلك، سيتم دمجه في يوتيوب Shorts ومنتجات أخرى تابعة لجوجل، مما يفتح آفاقًا جديدة لإبداع المحتوى المرئي على منصات متعددة.
الإعلان عن نموذج Imagen 3
إلى جانب Veo، أعلنت جوجل أيضًا عن نموذج Imagen 3، وهو نموذج متطور لتحويل النص إلى صورة، تزعم الشركة أن Imagen 3 هو النموذج “الأعلى جودة” في هذا المجال، حيث يقدم تفاصيل مذهلة وصورًا واقعية نابضة بالحياة، مع تقليل الأخطاء بشكل كبير. يتميز Imagen 3 بفهم أفضل للنصوص وتعامل أكثر ذكاءً مع المطالبات النصية الطويلة.
المنافسة مع نماذج OpenAI
مع إطلاق هذه النماذج الجديدة، يتطلع المجتمع التقني لمقارنتها بأداء نماذج شركة OpenAI المنافسة، التي تمتلك نموذج Sora لتحويل النص إلى فيديو، ونموذج DALL-E 3 لتحويل النص إلى صور، تبقى المنافسة محتدمة بين جوجل وOpenAI لتقديم أفضل الحلول في مجال الذكاء الاصطناعي التوليدي.
تُظهر هذه الابتكارات التقدم المستمر لجوجل في مجال الذكاء الاصطناعي، مما يفتح أمام المطورين ومنشئي المحتوى فرصًا جديدة لابتكار تجارب مرئية غنية ومتنوعة.