موفقیت هوش مصنوعی مایکروسافت در رنگی‌کردن ویدئوها فقط با یک تصویر

تلاش جدید تیمی از پژوهشگران نشان داد یادگیری ماشین به‌کمک هوش مصنوعی مایکروسافت می‌تواند ویدئوهای سیاه‌و‌سفید را تنها با یک تصویر مرجع رنگی، رنگی کند.

رنگی‌کردن ویدئوها ممکن است اثری هنری قلمداد شود. امروزه، مدل‌های جدید هوش مصنوعی کم‌کم به این حوزه نیز وارد شدند و می‌توانند اثری هنری خلق کنند. تیم دانشمندان مایکروسافت با همکاری دانشگاه حمد‌بن‌خلیفه و مؤسسه‌ی USC در بخش‌های تحقیقات آسیا (Research Asia) و ادراک هوش مصنوعی (AI Perception) و بخش واقعیت ترکیبی (Mixed Reality Division) پژوهشی جدید انجام داد و مقاله‌ای با عنوان رنگی‌کردن ویدئوها مبتنی‌بر نمونه‌ی مرجع (Deep Exemplar-based Video Colorization) در وب‌سایت Arxiv منتشر کرد. این پژوهش جدید دستاوردی در حوزه‌ی فناوری‌های خلاقانه است و پژوهشگران این تیم ادعا می‌کنند موفق شدند اولین سیستم سرتاسری مستقلِ مبتنی‌بر نمونه (مثلا برگرفته از تصویری مرجع) را در رنگی‌کردن ویدئوها ایجاد کنند. به‌گفته‌ی پژوهشگران مایکروسافت، این تحقیقات در هر دو بخش کمّی و کیفی به نتایجی فراتر از اثری هنری دست پیدا کرده است.

نویسندگان این مقاله معتقدند:

مسئله‌ی اصلی چگونگی دستیابی به ثبات زمانی (Temporal Consistency) است؛ درحالی‌که بتوان به سبک و ویژگی‌های تصویر مرجع وفادار ماند. تمام بخش‌های مختلف این مدل هوش مصنوعی که به‌صورت سیستم سرتاسری آموزش داده شده، باعث ایجاد ویدئوهای واقعی با پایداری زمانی (Temporal Stability) مناسب می‌شود.

نویسندگان این مقاله خاطرنشان کردند توانایی هوش مصنوعی در تبدیل ویدئو‌های تک‌رنگی به ویدئوهای رنگی کار جدیدی نیست. برای نمونه، پژوهشگران انویدیا یکی از بزرگ‌ترین شرکت‌های فناوری جهان و غول پردازنده‌های گرافیکی، در سپتامبر گذشته موفق شدند مدلی ارائه کنند که رنگ‌ها را از فریم فقط یک ویدئو رنگی‌شده استخراج می‌کرد. نمونه‌ی دیگر، هوش مصنوعی گوگل است که در ژوئن با ارائه‌ی الگوریتمی، ویدئوهای سیاه‌وسفید را بدون نظارت دستی انسان رنگی می‌کرد. بااین‌حال، نکته‌ی اصلی این است که خروجی تمام این مدل‌ها و الگوریتم‌های ارائه‌شده خطاها و آرتیفکت‌های بسیار دارد که مدت زمان ویدئو ورودی را افزایش می‌دهد.

برای مشاهده‌ی ابعاد اصلی روی تصویر کلیک کنید.

در روش جدید برای کاهش نقص‌ها، نتیجه‌ی فریم ویدئوی قبلی به‌عنوان ورودی (برای حفظ ثبات) به‌کار گرفته می‌شود و رنگی‌سازی با استفاده از تصویر مرجعی انجام می‌گیرد، بدین ترتیب این تصویر فرایند رنگی‌سازی را فریم‌به‌فریم هدایت می‌کند و خطای تجمعی را کاهش می‌دهد. در بیشتر مدل‌های قبلی، رنگ صحیح اجسام درون تصویر را نمی‌شد به‌صورت مستقیم از تصویر سیاه‌وسفید به‌دست آورد؛ بنابراین، هوش مصنوعی باید می‌توانست نوع و رنگ اجسام را ازطریق یادگیری ماشینی که از چند میلیون عکس رنگی به‌دست آورد و به‌درستی پیش‌بینی کند. در مدل جدید، هنگام جلورفتن فریم‌به‌فریم ویدئو، رنگ فریم‌ها تغییر نمی‌کند؛ یعنی رنگ جدید محتوای ویدئویی سیاه‌وسفید با جلورفتن ویدئو در فریم‌های بعدی ثابت باقی می‌ماند. اگر تصویر مرجع یک فریم رنگی در ویدئو باشد، این کار همانند بسیاری دیگر از روش‌های رنگی‌کردن ویدئوها، اما بسیار قدرتمندتر و با دقت بیشتری انجام می‌شود؛ درنتیجه، این مدل جدید می‌تواند رنگ‌های «طبیعی» را براساس معانی ورودی تصویر سیاه‌وسفید پیش‌بینی کند. این مدل حتی می‌تواند زمانی‌که تطبیق مناسبی در تصویر مرجع یا فریم قبلی ارائه نشده باشد، پیش‌بینی مناسبی از معنای رنگ کند.

دستیابی به چنین مدلی نیازمند معماری شبکه‌ی کانولوشن سرتاسری است. شبکه‌ی کانولوشن سرتاسری نوعی سیستم هوش مصنوعی است که برای تجزیه‌و‌تحلیل تصاویر دیداری از آن استفاده می‌شود و همراه‌با ساختاری مکرر است که اطلاعات تاریخی ازنظر زمانی را حفظ می‌کند. این مدل از دو ماژول تشکیل شده است: ۱. مدل Correspondence که تراز تصویر مرجع را در فریم ورودی متناسب با معنای تراکم رنگ تنظیم می‌کند؛ ۲. مدل رنگی‌کردن ویدئوها است که باتوجه‌به نتیجه‌ی رنگی‌شدن فریم فبلی و تراز تصویر مرجع، فریم ویدئو سیاه‌و‌سفید را رنگی می‌کند.

مقاله‌های مرتبط:

تیم تحقیقاتی مجموعه‌ای از داده‌های آموزش‌دیده را از مجموعه‌ی متن‌باز Videvo گردآوری کردند که بیشتر شامل تصاویر حیوانات و مناظر بودند. آن‌ها پرتره ویدئوها را با استفاده از مجموعه‌ی جداگانه‌ای (هالیوود ۲) کامل کردند و مجموع ۷۶۸ ویدئویی را فیلتر کردند که بیش‌ازحد تصویر آن‌ها تاریک بود یا رنگ محوی داشتند. برای هر ویدئو، ۲۵ فریم استخراج شد و دسته‌بندی داده‌ها را با عکس‌های ImageNet، مرکز داده‌ی وسیعی برای توسعه‌ی نرم‌افزارهای هوش مصنوعی گسترش دادند که برای اعمال تحریف هندسی تصادفی و مشخص‌کردن نویزها برای تولید فریم‌ها استفاده می‌شدند. نتیجه‌ی نهایی، تولید ۷۰ هزار ویدئو تکمیل‌شده در «دسته‌‌بندی‌های گوناگون» بود.

به‌گزارش نویسندگان این مقاله، در آزمایش‌های انجام‌شده‌ی این سیستم جدید، بهترین دقت کلاس Top-5 و Top-1 در ImageNet ارائه شده است. این نشان‌دهنده‌ی آن است که نتایج ازنظر معنایی معنادار بوده و آن را با کمترین مقدار Frechet Inception Distance یا FID در‌مقایسه‌با معیارهای بنچمارک مدیریت کرده که این کار باعث می‌شود خروجی بسیار واقعی‌تر باشد.

پژوهشگران گفتند:

به‌طورکلی، نتایج این مدل وایبرنت رنگی کمی دارند؛ اما شباهت زیادی با رنگ‌های زمینه عکس مرجع دارند. همچنین، این روش جدید در مقایسه‌ی کیفی نیز نتایج واقعی‌تری با وایبرنت رنگی‌سازی کمتری تولید می‌کند. علاوه‌براین در هر فریم، وایبرنت‌های رنگی با آرتیفکت‌های بسیار کمتری در‌مقایسه‌با مدل‌های قبلی وجود دارند. در‌عین‌حال، فریم‌های متوالی رنگی نشان می‌دهد هماهنگی ثبات زمانی مناسبی دارد.