حمید پیمان فر

حمید پیمان فر

برنامه نویس ارشد در حوزه بازی سازی، ساکن هلند

DeepMind از هوش مصنوعی V2A رونمایی کرد. صدا بر روی ویدئو با دستور متنی [watch]

دیپ‌مایند از هوش مصنوعی V2A رونمایی کرد؛ صداگذاری روی ویدیو با دستور متنی [تماشا کنید]

دیپ‌مایند گوگل از هوش مصنوعی V2A خود رونمایی کرد که می‌تواند به ویدیوها موسیقی متن، افکت‌های صوتی و حتی دیالوگ اضافه کند.

برخی مدل‌های هوش مصنوعی مانند Sora و Dream Machine هرچند عملکرد خارق‌العاده‌ای در تولید ویدیو دارند، اما خروجی آن‌ها بی‌صدا است. اکنون دیپ‌مایند گوگل از یک هوش مصنوعی درحال توسعه به نام «V2A» رونمایی کرده است که برای تولید موسیقی متن و صدا برای فیلم‌ها کاربرد دارد.

دیپ‌مایند فناوری V2A (مخفف «ویدیو به صدا») را به عنوان یک قطعه ضروری از پازل ساخت ویدیو با هوش مصنوعی معرفی می‌کند. درحالی‌که بسیاری از شرکت‌ها، ازجمله دیپ‌مایند، مدل‌های هوش مصنوعی تولیدکننده ویدیو را توسعه داده‌اند، این مدل‌ها نمی‌توانند افکت‌های صوتی با قابلیت همگام‌سازی روی فریم‌های ویدیوهای خود را فراهم کنند.

هوش مصنوعی دیپ‌مایند گوگل برای صداگذاری روی ویدیوها

دیپ‌مایند می‌گوید: «مدل‌های تولید ویدیو با سرعتی باورنکردنی درحال پیشرفت هستند، اما بسیاری از سیستم‌های فعلی فقط می‌توانند خروجی بی‌صدا تولید کنند. اکنون فناوری V2A می‌تواند به یک ابزار امیدوارکننده برای زنده‌کردن این فیلم‌ها تبدیل شود.»

در ویدیوهای این هوش مصنوعی می‌بینید که این فناوری جدید علاوه‌بر دیالوگ، می‌تواند موسیقی را متناسب با تصویر تولید کند.

با هوش مصنوعی V2A دیپ‌مایند شما می‌توانید با توصیف یک صدا (مثلاً غوطه‌ورشدن عروس‌دریایی زیر آب همراه با صدای اقیانوس) به ویدیو خود موسیقی، افکت‌های صوتی و حتی دیالوگ‌ اضافه کنید. دیپ‌مایند می‌گوید که مدل هوش مصنوعی V2A با ترکیبی از صداها و متن‌های دیالوگ و همچنین کلیپ‌های ویدیویی آموزش دیده است.

به گفته دیپ‌مایند باتوجه به داده‌های مختلف مانند ویدیو، صداها و دیالوگ‌ها که V2A با آن‌ها آموزش دیده است، این مدل یاد گرفته که صداهای مختلف را با صحنه‌های ویدیویی مرتبط کند. هنوز مشخص نیست که دیپ‌مایند دقیقاً از چه داده‌هایی برای آموزش V2A استفاده کرده و آیا این داده‌ها دارای کپی‌رایت هستند یا خیر.

به‌طورکلی ابزارهای تولید صدا با هوش مصنوعی فناوری چندان تازه‌ای نیستند. استارتاپ Stability AI و ElevenLabs نیز پیش‌ازاین از چنین مدل‌هایی رونمایی کرده بودند. اما دیپ‌مایند ادعا می‌کند که فناوری V2A آن منحصربه‌فرد است، زیرا می‌تواند فریم‌های یک ویدیو را درک کند و صداهای تولیدشده را با ویدیو به‌صورت خودکار همگام سازد.

حمید پیمان فر
حمید پیمان فر برنامه نویس ارشد در حوزه بازی سازی، ساکن هلند

شاید خوشتان بیاید

پاسخ ها

نظر خود را درباره این پست بنویسید
منتظر اولین کامنت هستیم!
آیدت: فروش فایل، مقاله نویسی در آیدت، فایل‌های خود را به فروش بگذارید و یا مقالات‌تان را منتشر کنید👋