دیپمایند گوگل از هوش مصنوعی V2A خود رونمایی کرد که میتواند به ویدیوها موسیقی متن، افکتهای صوتی و حتی دیالوگ اضافه کند.
برخی مدلهای هوش مصنوعی مانند Sora و Dream Machine هرچند عملکرد خارقالعادهای در تولید ویدیو دارند، اما خروجی آنها بیصدا است. اکنون دیپمایند گوگل از یک هوش مصنوعی درحال توسعه به نام «V2A» رونمایی کرده است که برای تولید موسیقی متن و صدا برای فیلمها کاربرد دارد.
دیپمایند فناوری V2A (مخفف «ویدیو به صدا») را به عنوان یک قطعه ضروری از پازل ساخت ویدیو با هوش مصنوعی معرفی میکند. درحالیکه بسیاری از شرکتها، ازجمله دیپمایند، مدلهای هوش مصنوعی تولیدکننده ویدیو را توسعه دادهاند، این مدلها نمیتوانند افکتهای صوتی با قابلیت همگامسازی روی فریمهای ویدیوهای خود را فراهم کنند.
دیپمایند میگوید: «مدلهای تولید ویدیو با سرعتی باورنکردنی درحال پیشرفت هستند، اما بسیاری از سیستمهای فعلی فقط میتوانند خروجی بیصدا تولید کنند. اکنون فناوری V2A میتواند به یک ابزار امیدوارکننده برای زندهکردن این فیلمها تبدیل شود.»
در ویدیوهای این هوش مصنوعی میبینید که این فناوری جدید علاوهبر دیالوگ، میتواند موسیقی را متناسب با تصویر تولید کند.
با هوش مصنوعی V2A دیپمایند شما میتوانید با توصیف یک صدا (مثلاً غوطهورشدن عروسدریایی زیر آب همراه با صدای اقیانوس) به ویدیو خود موسیقی، افکتهای صوتی و حتی دیالوگ اضافه کنید. دیپمایند میگوید که مدل هوش مصنوعی V2A با ترکیبی از صداها و متنهای دیالوگ و همچنین کلیپهای ویدیویی آموزش دیده است.
به گفته دیپمایند باتوجه به دادههای مختلف مانند ویدیو، صداها و دیالوگها که V2A با آنها آموزش دیده است، این مدل یاد گرفته که صداهای مختلف را با صحنههای ویدیویی مرتبط کند. هنوز مشخص نیست که دیپمایند دقیقاً از چه دادههایی برای آموزش V2A استفاده کرده و آیا این دادهها دارای کپیرایت هستند یا خیر.
بهطورکلی ابزارهای تولید صدا با هوش مصنوعی فناوری چندان تازهای نیستند. استارتاپ Stability AI و ElevenLabs نیز پیشازاین از چنین مدلهایی رونمایی کرده بودند. اما دیپمایند ادعا میکند که فناوری V2A آن منحصربهفرد است، زیرا میتواند فریمهای یک ویدیو را درک کند و صداهای تولیدشده را با ویدیو بهصورت خودکار همگام سازد.
پاسخ ها