این مدل میتواند عکسهای شما را به ویدیوهای واقعی تبدیل کند که در آنها در حال صحبتکردن یا آوازخواندن هستید.
محققان شرکت چینی علیبابا (Alibaba)، سیستم هوش مصنوعی جدیدی به نام «EMO» (مخفف Emote Portrait Alive) را توسعه دادهاند که میتواند یک عکس پرتره را به ویدیو تبدیل کند. بهطور خلاصه، این مدل میتواند عکسهای شما را به ویدیوهای واقعی تبدیل کند که در آنها در حال صحبتکردن یا آوازخواندن هستید.
براساس مقاله تحقیقاتی علیبابا، این مدل میتواند حرکات اجزای صورت و حالتهای سر کاربران را بهصورتی ایجاد کند که دقیقا با آهنگ صوتی ارائهشده مطابقت داشته باشد. همچنین از این مدل بهعنوان یک پیشرفت بزرگ در زمینه تولید ویدیو براساس صدا یاد شده است، حوزهای که محققان هوش مصنوعی سالها آن را به چالش کشیدهاند.
«لینروی تیان»، محقق اصلی این سیستم میگوید:
«تکنیکهای سنتی اغلب نمیتوانند طیف کاملی از حالات انسانی و منحصربهفردبودن سبکهای صورت اشخاص را به تصوی بکشند. برای حل این مشکل، ما EMO را پیشنهاد می کنیم، یک چارچوب جدید که از رویکرد مستقیم صوتی به تصویر استفاده میکند و به مدلهای سهبعدی متوسط یا نشانههای چهره نیازی ندارد.»
مدل تبدیل عکس به ویدیو EMO از یک تکنیک هوش مصنوعی معروف به مدل انتشار استفاده میکند که از نظر تولید تصاویر واقعی، پتانسیل بسیار خوبی از خود نشان داده است. محققان این مدل را با مجموعه دادهای متشکل از 250 ساعت ویدیوهای مربوط به سخنرانیها، فیلمها، نمایشهای تلویزیونی و اجرای آواز آموزش دادهاند.
برخلاف مدلهای سنتی که بر مدلهای سهبعدی صورت یا ترکیب اشکال برای تقریب حرکات صورت تکیه دارند، EMO میتواند مستقیما شکل موج صوتی را به فریمهای ویدیویی تبدیل کند. این امر به آن اجازه میدهد تا حرکات ظریف و ویژگیهای پیچیده هویتی مرتبط با گفتار طبیعی را نمایش دهد.
طبق آزمایشهایی که در مقاله توضیح داده شده، EMO به طور قابلتوجهی از روشهای پیشرفته موجود در معیارهای اندازهگیری کیفیت ویدیو، حفظ هویت و بیان بهتر استفاده میکند. محققان همچنین یک مطالعه روی کاربران انجام دادند که نشان داد ویدیوهای تولید شده توسط EMO طبیعیتر و احساسیتر از ویدیوهای تولیدشده توسط سایر سیستمها هستند.
پاسخ ها