این مدل در زمینههایی مانند تفسیر میمها، تجزیهوتحلیل تصاویر و حل مرحلهبهمرحله مسائل ریاضی عملکرد استثنایی از خود نشان داده است.
انویدیا خانواده مدلهای هوش مصنوعی منبعباز و قدرتمند NVLM 1.0 خود را منتشر کرده است که با مدلهای ساختهشده توسط OpenAI و گوگل رقابت میکند. عضو اصلی این خانواده از مدلهای زبانی چندوجهی بزرگ با عنوان NVLM-D-72B دارای 72 میلیارد پارامتر است و در وظایف بینایی و زبانی عملکرد استثنایی ارائه میکند و درهمینحال قابلیتهای متنی آن نیز افزایش یافته است.
محققان انویدیا در مقاله خود توضیح میدهند:
«ما NVLM 1.0 را معرفی میکنیم، خانوادهای از مدلهای زبانی بزرگ چندوجهی که در وظایف بینایی به نتایج پیشرفتهای دست پیدا میکنند و با مدلهای پیشرو (مانند GPT-4o) و مدلهای قابلدسترس دیگر رقابت میکند.»
طبق گزارشهای منتشرشده، مدل NVLM-D-72B، انطباقپذیری بسیار خوبی در پردازش ورودیهای بصری و متنی پیچیده نشان داده است. در مقاله انویدیا نمونههایی ارائهشده که توانایی مدل در تفسیر میمها، تجزیهوتحلیل تصاویر و حل مرحلهبهمرحله مسائل ریاضی را نشان میدهد.
علاوهبراین، عملکرد مدل در زمینه وظایف متنی نیز بهبود یافته است. درواقع دقت NVLM-D-72B در این زمینه بهطور میانگین در بنچمارکهای کلیدی 4.3 امتیاز ارتقا پیدا کرده است.
انویدیا با انتشار عمومی این مدل و وعده انتشار کد آموزشی آن، ظاهراً قصد دارد از روند بستهنگهداشتن سیستمهای هوش مصنوعی پیشرفته فاصله بگیرد. تصمیمی که باعث میشود محققان و توسعهدهندگان به فناوریهای پیشرفته دسترسی داشته باشند و بههمین ترتیب تحقیقوتوسعه در زمینه هوش مصنوعی را تسریع میکند.
علاوهبراین، پروژه NVLM شامل طرحهای معماری نوآورانهای میشود، از جمله یک رویکرد ترکیبی که تکنیکهای مختلف پردازش چندوجهی را ترکیب میکند. چنین پیشرفتی میتواند جهت تحقیقات آینده را شکل بدهد.
جامعه هوش مصنوعی نیز بهطور کلی واکنش مثبتی نسبت به مدل هوش مصنوعی جدید انویدیا داشته است. یکی از محققان هوش مصنوعی در شبکه اجتماعی ایکس میگوید:
«انویدیا بهتازگی یک مدل 72B منتشرکرده که در ریاضی و کدنویسی با لاما 405B 3.1 برابری میکند و همچنین قابلیتهای بینایی دارد.»
بااینحال، انتشار عمومی NVLM 1.0 خطرات خاص خود را نیز بههمراه دارد. با در دسترس قرارگرفتن مدلهای هوش مصنوعی قدرتمند، نگرانیهای مربوط به سوءاستفاده از آنها احتمالاً افزایش پیدا خواهد کرد.
پاسخ ها