Veo 3 من جوجل.. ثورة في صناعة الفيديوهات من النصوص

جوجل كشفت في مؤتمرها السنوي للمطورين Google I/O 2025 عن حزمة من الابتكارات التقنية الجديدة التي تؤكد سعيها المتواصل لتعزيز مكانتها في سوق الذكاء الاصطناعي، وضمن أبرز ما قدمته الشركة جاء الإعلان عن «Veo 3» الذي يُعد أقوى وأحدث أدوات «جوجل» في مجال توليد الفيديوهات بالاعتماد الكامل على «الوصف النصي»، إلى جانب النموذج المحسّن لتوليد الصور والمعروف باسم «Imagen 4»، إذ يأتي هذا الإعلان تتويجًا لجهود سنوات من البحث في تقنيات الوسائط التوليدية القائمة على الذكاء الاصطناعي العميق، ويبدو أن «جوجل» مصممة على أن تتصدر مشهد المنافسة أمام عمالقة آخرين في هذا القطاع سريع النمو.
Veo 3.. إبداع مرئي من كلماتك فقط
نموذج «Veo 3» الجديد الذي كشفت عنه «جوجل» يتمتع بقدرات مذهلة جعلته أحد أكثر أدوات الذكاء الاصطناعي التوليدي تطورًا حتى الآن، فالمستخدم يستطيع من خلاله إنشاء مقاطع فيديو قصيرة عالية الجودة فقط باستخدام وصف نصي بسيط أو صورة مرجعية، وقد حرصت «جوجل» على أن تدعم هذه الأداة إمكانيات فنية متقدمة تضمن تحسين الحركة داخل الإطارات، وتعزيز تفاعل العناصر مع البيئة المحيطة، مع ضمان اتساق زمني وبصري يخلق انطباعًا واقعيًا أقرب إلى الفيديو المصور فعليًا بكاميرا احترافية.
الأداة الجديدة أصبحت متوفرة بنسخة تجريبية داخل الولايات المتحدة ضمن باقة Google AI Ultra، ويمكن للمستخدمين تجربتها من خلال تطبيق «Gemini» أو عبر منصة صناعة الفيديوهات الجديدة من «جوجل» والمعروفة باسم «Flow»، وهي منصة تم الكشف عنها أيضًا خلال نفس الحدث التقني الضخم، كما يمكن للشركات والمؤسسات الوصول إلى Veo 3 من خلال خدمات «Vertex AI» التي تقدمها «جوجل» للبنية التحتية السحابية الذكية.
تحسينات مبتكرة على Veo 2 تواكب ثورة Veo 3
ولم تكتفِ «جوجل» بإطلاق الجيل الثالث من نموذج توليد الفيديو فحسب، بل أعلنت كذلك عن تقديم مجموعة من التحسينات الجوهرية على الإصدار السابق Veo 2، في محاولة لضمان تدرج تقني متكامل بين الأجيال، حيث شملت هذه التحديثات أدوات جديدة تسمح للمستخدم بتحكم أكثر دقة ومرونة في إنتاج الفيديو.
من أبرز ما تم تقديمه في Veo 2 هو ميزة «المدخلات المرجعية»، التي تتيح للمستخدم رفع صور لأشخاص أو عناصر معينة لضمان التناسق البصري بين مختلف مشاهد الفيديو، كما أضافت «جوجل» إمكانيات تحكم متقدمة بالكاميرا مثل التحريك الجانبي «Pan»، أو التكبير «Zoom»، أو الدوران «Rotate» ضمن النص التوجيهي المكتوب، ما يمنح المستخدم بعدًا إخراجيًا جديدًا لم يكن متاحًا من قبل.
ولعل أبرز ما أثار الانتباه أيضًا هو ميزة «توسيع الإطار» المعروفة باسم «Outpainting»، والتي تسمح بتمديد المشهد إلى ما هو خارج الإطار الأصلي للفيديو، مما يفتح الباب أمام إنشاء تنسيقات جديدة أو تعديل حجم الفيديو ليتناسب مع منصات مختلفة مثل إنستغرام أو يوتيوب، إضافة إلى إمكانية «إضافة أو إزالة عناصر» داخل الإطارات، بطريقة تحافظ على الانسجام التام في الإضاءة والظلال، وكل ذلك بلمسة نصية واحدة.
Imagen 4.. نموذج جوجل الجديد لتوليد الصور فائقة الدقة
إلى جانب Veo 3، كشفت «جوجل» عن نموذجها الأحدث لتوليد الصور بالذكاء الاصطناعي، والذي حمل اسم «Imagen 4»، ويُعد هذا النموذج تطورًا مهمًا في سياق التنافس على أدوات إنتاج الصور الواقعية من النصوص، حيث يوفر النموذج الجديد دقة تصل إلى 2K، مع قدرة غير مسبوقة على محاكاة التفاصيل الدقيقة مثل ملمس الأقمشة، وانعكاسات الزجاج، وألوان الفرو، وغيرها من التفاصيل التي يصعب توليدها بدقة باستخدام نماذج تقليدية.
كما يتميز Imagen 4 بمرونته الكبيرة في توليد صور بأساليب فنية متنوعة، سواء كانت فوتوغرافية واقعية أو رسومية توضيحية، ما يجعله أداة متعددة الاستخدامات في مجالات مثل التصميم الإعلاني، وصناعة المحتوى، وتطوير الشخصيات في الألعاب أو الرسوم المتحركة.
جوجل ترسم مستقبل المحتوى البصري بالذكاء الاصطناعي
يُجمع الخبراء والمحللون على أن التحركات الأخيرة من «جوجل» تمثل تحوّلًا جذريًا في كيفية إنتاج المحتوى البصري سواء في الفيديو أو الصور، حيث لم يعد المستخدم بحاجة إلى معدات تصوير احترافية أو فريق إنتاج متكامل، بل أصبح بوسعه باستخدام بضع كلمات فقط أن يصنع مشهدًا كاملاً يبدو كما لو كان قد تم تصويره على أرض الواقع.
كما أن دمج هذه الأدوات داخل منصات «جوجل» المختلفة مثل Gemini وVertex AI وFlow يجعل من السهل تبنّي هذه التقنيات في التطبيقات العملية، سواء في قطاع الإعلام، أو التسويق، أو التعليم، أو حتى في الاستخدامات الشخصية.
وقد أكد ممثلو «جوجل» خلال المؤتمر أن الشركة تعمل على تحسين البنية التحتية لهذه النماذج لضمان سرعة الاستجابة، وحماية البيانات، وتقليل التحيزات في النماذج اللغوية والبصرية، مما يشير إلى التزام جاد بتقديم تقنية مسؤولة ومستدامة.
مستقبل إبداعي بعيون جوجل
من الواضح أن «جوجل» تسعى إلى أن تكون اللاعب الأبرز في مضمار «الذكاء الاصطناعي الإبداعي»، وليس فقط في مجالات البحث أو معالجة البيانات، ومن خلال أدوات مثل Veo 3 وImagen 4 فإن الشركة تقترب أكثر من جعل تقنيات إنتاج الفيديو والصور متاحة للجميع، وبتكلفة منخفضة وجهد بسيط، لتفتح بذلك آفاقًا جديدة للمبدعين والمصممين والطلاب وصنّاع المحتوى حول العالم.
وفي ختام مؤتمر Google I/O 2025، بدا جليًا أن «جوجل» وضعت خريطة طريق جديدة للمستقبل، حيث لا تقتصر الابتكارات على تحسين محركات البحث أو أدوات الترجمة، بل تمتد لتشمل إعادة تعريف كيفية تفاعل البشر مع الوسائط البصرية، مما يضع الشركة في قلب الثورة التكنولوجية المقبلة.