هوش مصنوعی EMO برای تبدیل عکس به ویدیو توسط علی بابا [تماشا کنید] معرفی شد

هوش مصنوعی EMO برای تبدیل عکس به ویدیو توسط علی‌بابا معرفی شد [تماشا کنید]

این مدل می‌تواند عکس‌های شما را به ویدیوهای واقعی تبدیل کند که در آن‌ها در حال صحبت‌کردن یا آوازخواندن هستید.

محققان شرکت چینی علی‌بابا (Alibaba)، سیستم هوش مصنوعی جدیدی به نام «EMO» (مخفف Emote Portrait Alive) را توسعه داده‌اند که می‌تواند یک عکس پرتره را به ویدیو تبدیل کند. به‌طور خلاصه، این مدل می‌تواند عکس‌های شما را به ویدیوهای واقعی تبدیل کند که در آن‌ها در حال صحبت‌کردن یا آوازخواندن هستید.

براساس مقاله تحقیقاتی علی‌بابا، این مدل می‌تواند حرکات اجزای صورت و حالت‌های سر کاربران را به‌صورتی ایجاد کند که دقیقا با آهنگ صوتی ارائه‌شده مطابقت داشته باشد. همچنین از این مدل به‌عنوان یک پیشرفت بزرگ در زمینه تولید ویدیو براساس صدا یاد شده است، حوزه‌ای که محققان هوش مصنوعی سال‌ها آن را به چالش کشیده‌‌اند.

«لینروی تیان»، محقق اصلی این سیستم می‌گوید:

«تکنیک‌های سنتی اغلب نمی‌توانند طیف کاملی از حالات انسانی و منحصر‌به‌فردبودن سبک‌های صورت اشخاص را به تصوی بکشند. برای حل این مشکل، ما EMO را پیشنهاد می کنیم، یک چارچوب جدید که از رویکرد مستقیم صوتی به تصویر استفاده می‌کند و به مدل‌های سه‌بعدی متوسط یا نشانه‌های چهره نیازی ندارد.»

نحوه کار مدل تبدیل عکس به ویدیو علی‌بابا

مدل تبدیل عکس به ویدیو EMO از یک تکنیک هوش مصنوعی معروف به مدل انتشار استفاده می‌کند که از نظر تولید تصاویر واقعی، پتانسیل بسیار خوبی از خود نشان داده است. محققان این مدل را با مجموعه داده‌ای متشکل از 250 ساعت ویدیو‌های مربوط به سخنرانی‌ها، فیلم‌ها، نمایش‌های تلویزیونی و اجرای آواز آموزش داده‌اند.

برخلاف مدل‌های سنتی که بر مدل‌های سه‌بعدی صورت یا ترکیب اشکال برای تقریب حرکات صورت تکیه دارند، EMO می‌تواند مستقیما شکل موج صوتی را به فریم‌های ویدیویی تبدیل کند. این امر به آن اجازه می‌دهد تا حرکات ظریف و ویژگی‌های پیچیده هویتی مرتبط با گفتار طبیعی را نمایش دهد.

طبق آزمایش‌هایی که در مقاله توضیح داده شده، EMO به طور قابل‌توجهی از روش‌های پیشرفته موجود در معیارهای اندازه‌گیری کیفیت ویدیو، حفظ هویت و بیان بهتر استفاده می‌کند. محققان همچنین یک مطالعه روی کاربران انجام دادند که نشان داد ویدیوهای تولید شده توسط EMO طبیعی‌تر و احساسی‌تر از ویدیوهای تولیدشده توسط سایر سیستم‌ها هستند.