با انتشار نسخهی باکیفیت 4K یکی از نخستین فیلمهای سیاهوسفید صامت سینما در یوتیوب، این پرسش مطرح شده است که بهبود کیفیت تصاویر پیکسلی دقیقا چگونه انجام میشود؟
وقتی فیلم کوتاه صامت ورود لوکوموتیو بخار به ایستگاه لسیوته در سال ۱۸۹۶ بهنمایش درآمد، برخی تماشاگران با تصور اینکه قطار از پرده خارج خواهد شد، بهمحض نزدیکشدن آن به دوربین، از سالن فرار کردند. این واکنش آنها باتوجهبه وضوح تصویر پایین فیلم اصلی غیرواقعبینانه بود. خوشبختانه آن سینمادوستان وحشتزده هرگز فرصت پیدا نکردند نسخهای تازه از فیلم یادشده را تماشا کنند که کیفیتش با کمک هوش مصنوعی بهبود یافته است؛ وگرنه بهطور حتم عنان از کف میدادند.
دنیس شیریاف، یوتیوبر معروف و منتشرکنندهی نسخهی تازهی فیلم «ورود لوکوموتیو بخار به ایستگاه قطار لسیونته»، از دو برنامهی بهبوددهندهی تصویر (Upscaler) بهنامهای DAIN و Gigapixel AI استفاده کرد تا فیلم اصلی را به کلیپی با وضوح تصویر 4K و نرخ ۶۰ فریمبرثانیه تبدیل کند. بهنقل از وبسایت توپاز لبز سازندهی گیگاپیکسل، این برنامه از الگوریتم درونیابی اختصاصی بهره میگیرد که با تجزیهوتحلیل تصویر، جزئیات و ساختارها را شناسایی و آن را تکمیل میکند. درواقع، این شرکت به هوش مصنوعی یاد داده است حتی اگر تصاویر بهاندازهی ۶۰۰ درصد بزرگ شده باشند، آنها را بهدقت شفاف و واضح کند. درمقابل، DAIN فریمهای اضافی را حدس میزند و آنها را بین فریمهای اصلی یک کلیپ ویدئویی موجود وارد میکند. این راهکار مشابه همان ویژگی هموارسازی تصویر در تلویزیونهای 4K است که جز عدهای معدود هیچکس از آن استفاده نمیکند. بااینحال، این ویژگی در مورد اخیر فریمهای کافی را به فیلم افزوده است تا نرخ حرکت آن را به ۶۰ فریمبرثانیه افزایش دهد.
راهکارهای یادشده دو نمونه از فناوریهای بهبود تصویر بهشمار میآیند که از زمان ورود نخستین تلویزیونهای کیفیت بالا (HD) به بازار در سال ۱۹۹۸ تا امروز، بخشی ضروری از پخش محتوای سرگرمی بوده است. تلویزیونهای کیفیت استاندارد قدیمی (SD) تصاویر را در وضوح ۷۲۰ در ۴۸۰ نشان میدادند که بهمعنای توانایی نمایش درمجموع ۳۴۵،۶۰۰ پیکسل در آنِ واحد بود. تلویزیونهای HD میتوانند وضوح تصویر ۱۹۲۰ در ۱۰۸۰ یا مجموع ۲ میلیون و ۷۳ هزار و ۶۰۰ پیکسل را نشان دهند که بهمعنای کیفیت ۶ برابری درمقایسهبا نسل پیشین است؛ درحالیکه تلویزیونهای 4K با وضوح تصویر ۳۸۴۰ در ۲۱۶۰ به ۸ میلیون و ۲۹۴ هزار و ۴۰۰ پیکسل نیاز دارند.
وضوح تصویر چشمگیر تلویزیونهای 4K بدانمعنی است که باید ۶ میلیون پیکسل بیشتر درون تصویر HD گنجانده شود تا اندازهاش برای نمایش روی نمایشگر 4K مناسب شود؛ درنتیجه، بهبوددهندگان تصویر باید دریابند آن پیکسلهای اضافی باید حاوی چه چیز باشند. این همان جایی است که فرایند درونیابی بهکار میآید. تکنیک مذکور تخمین میزند هرکدام از آن پیکسلهای تازه براساس محتوای پیکسلهای اطرافشان باید چه چیزی نمایش دهند. باوجوداین، برای برآورد این امر چندین راه مختلف وجود دارد.
شیوهی «نزدیکترین همسایه» صرفا پیکسلهای خالی را با همان رنگ نزدیکترین پیکسلش پر میکند. این راهکار ساده و مؤثر محسوب میشود؛ اما نتیجه، ناهموار و بیشازحد پیکسلی شدن تصویر است. درونیابی دوخطی به کمی قدرت پردازشی بیشتر نیاز دارد؛ اما به تلویزیون امکان میدهد بهمنظور بهبود تصویر، هر پیکسل خالی را براساس نزدیکترین پیکسلهایش تجزیهوتحلیل و بین آنها گرادیان یا شیب رنگ ایجاد کند. درمقابل، درونیابی دومکعبی از ۱۶ پیکسل نزدیکتر به پیکسل خالی نمونهبرداری میکند. این روش موجب رنگآمیزی صحیح میشود؛ اما تصویر حاصلشده همچنان تار است. تلویزیونها با ترکیب نتایج درونیابی دوخطی و دومکعبی میتوانند کمبودهای هر فرایند را جبران کنند و تصاویری بهبودیافته با ازدسترفتن حداقلی کیفیت نوری درمقایسهبا نسخهی اصلی بهوجود آورند.
ازآنجاکه فرایند درونیابی دراصل نوعی بازی حدسی است، چرا هوش مصنوعی نداشته باشیم که موارد خالی را فرابخواند؟ برنامههایی نظیر DAIN با استفاده از شبکههای عصبی همگشتی عمیق میتوانند کلیپهای ویدئویی را تجزیهوتحلیل و نقشهبرداری کنند و سپس تصاویر پرکنندهی تولیدشده را بین فریمهای موجود قرار دهند.
با وجود تمام راهکارهای اشارهشده، نتیجهی بهبود تصویر هیچوقت بینقص نیست و نسخهی باکیفیت فیلم «ورود لوکوموتیو بخار به ایستگاه قطار» نیز کمبودهایی دارد. نسخهی جدید بهعنوان کلیپی کوتاه و مخصوص یوتیوب بینظیر است؛ اما با بزرگکردن تصویر هرچند اجسام پیشزمینه بسیار مناسب بهنظر میآیند، با نگاه به لبههای اجسام یا اجسام پسزمینه، میتوان دید وضوح آنها از بین میرود. با وجود کمبودهای کنونی، تکنیک شیریاف فرصتهای جذابی مهیا میکند. شاید بتوانیم بهزودی با تبدیل فیلمهای قدیمی به محتوای واقعیت افزوده با هوش مصنوعی، فرصت دوبارهی تماشای فیلمهای صامت را در قالبی کاملا جدید پیدا کنیم.
پاسخ ها