دانشمند ارشد هوش مصنوعی: مدل تولید ویدیوی سورا OpenAI محکوم به شکست است

دانشمند ارشد هوش مصنوعی: مدل تولید ویدیو Sora از OpenAI «محکوم به شکست» است

ناکارآمدی مدل تولیدکننده تصویر Sora باعث ناکارآمدی آن در فهم چگونگی کار دنیای فیزیکی و شبیه‌سازی کارآمد آن خواهد شد.

هفته گذشته، OpenAI با معرفی مدل هوش مصنوعی Sora که براساس متن می‌تواند ویدیو بسازد، بحث‌های فراوانی را ایجاد کرد. اما «یان لی‌کان» (Yann Lecun)، دانشمند ارشد هوش مصنوعی که هم‌اکنون در متا مشغول به فعالیت است، عقیده دارد این همه هیجان برای مدل متن به ویدیو هیچ‌وپوچ است و این مدل در تحقق اهداف ادعا‌شده توسط OpenAI شکست می‌خورد.

به‌طور خلاصه، لی‌کان از این ادعای OpenAI انتقاد کرده است که Sora در نهایت ساخت «شبیه‌سازهای همه‌منظوره از دنیای فیزیکی» را ممکن می‌کند. او می‌گوید که رویکرد OpenAI برای ساخت یک «شبیه‌ساز دنیا» مطلقاً اشتباه است.

دانشمند ارشد هوش مصنوعی متا با انتشار یک پست در ایکس نوشت:

«مدل‌سازی متحرک دنیا با تولید پیکسل‌ها بی‌فایده و محکوم به شکست است، مانند ایده عمدتاً رهاشده آنالیز با سنتز.»

یان لی کان — یان لی‌کان مدل‌های تولیدگر را برای شبیه‌سازی دنیای فیزیکی ناکارآمد می‌داند و درحال کار روی مدل خود در متا است که پیش‌بینی‌های واقعی‌تری از دنیا انجام می‌دهد.

لی‌کان یکی از پدرخوانده‌های هوش مصنوعی محسوب می‌شود. برخلاف پدرخوانده‌های دیگر که از ساخت هوش مصنوعی ابراز پشیمانی کرده‌اند، او به کار خود با متا ادامه می‌دهد. لی‌کان همچنین یکی از صریح‌ترین و بی‌پرده‌ترین منتقدان رقبای خود در دنیای هوش مصنوعی است.

پیچیدگی تولید تصویر

لی‌کان با نظر خود به یک بحث قدیمی دریادگیری ماشین بین مدل‌های تولیدکننده و مدل‌های متمایزکننده اشاره دارد. او می‌گوید مدل‌های تولیدکننده که با «متغیرهای پنهان بیانگر» پیکسل می‌سازند، بسیار ناکارآمد هستند و این مدل نمی‌تواند عدم قطعیت‌های ناشی از پیش‌بینی پیچیدگی‌های یک فضای سه‌بعدی را به‌خوبی کنترل کند.

به‌زبان ساده، او می‌گوید این مدل‌ها تلاش می‌کنند تا جزئیاتی بسیار بی‌ربط را «استنتاج» کنند. برای مثال، حرکت یک توپ فوتبال را با تلاش برای فهم نقش تمام مواد سازنده توپ در حرکت محاسبه می‌کنند، نه تمرکز روی چیزهایی مثل جرم و وزن توپ.

او در ادامه پست خود گفت:

«اگر هدف شما واقعاً تولید ویدیو باشد، استفاده از این مدل هیچ اشکالی ندارد. اما اگر هدف‌تان فهم چگونگی کارکرد دنیاست، این کار به شکست می‌انجامد.»

رقیب هوش مصنوعی ویدیوساز Sora از متا

لی‌کان می‌گوید مدل‌های زبانی بزرگ مانند ChatGPT تا الان کارآمد بوده‌اند، «زیرا متن با تعداد محدودی نماد متمایز است.» اما اگر بخواهید مثل Sora دنیا را شبیه‌سازی کنید، با چیزی بیشتر از چند کاراکتر سروکار خواهید داشت.

لی‌کان برای رقابت با فناوری OpenAI روی مدل خود در متا کار می‌کند. این مدل مَفصل ویدیو حامل معماری پیش‌بینی‌گر (V-JEPA) نام دارد و هفته گذشته رونمایی شد.

کمپانی متا در یک پست بلاگ اعلام کرده که «برخلاف رویکردهای تولیدگر که تلاش می‌کنند هر پیکسل گم‌شده‌ای را پر کنند، V-JEPA این انعطاف را دارد که اطلاعات پیش‌بینی‌ناپذیر را حذف کند، که تمرین و کارایی نمونه را بین ۱٫۵ تا ۶ برابر بهبود می‌دهد.»

کار لی‌کان به‌اندازه محصولات OpenAI با تصاویر و متن‌های پرزرق‌وبرقی که دارند هیجان‌انگیز نیست، اما دورشدن این پژوهشگر برجسته هوش مصنوعی از رویکردهای قدیمی که OpenAI و مقلدان فراوانش درحال توسعه آن‌ها هستند، جالب است.