مایکروسافت از مدل هوش مصنوعی Phi-3-vision رونمایی کرد. درک تصاویر و نمودارها

Phi-3-vision اکنون به‌صورت پیش‌نمایش عرضه شده است و یک مدل 4.2 میلیارد پارامتری است.

مایکروسافت نسخه جدیدی از مدل زبانی کوچک Phi-3 خود را معرفی کرد که Phi-3-vision نام دارد. این نسخه جدید می‌تواند به تصاویر نگاه کند و درباره آن اطلاعاتی به شما ارائه کند.

Phi-3-vision یک مدل چندوجهی است (به این معنی که می‌تواند هم متن و هم تصاویر را درک کند) و بهترین استفاده را در گوشی‌های موبایل ارائه می‌کند. مایکروسافت می‌گوید Phi-3-vision که اکنون به‌صورت پیش‌نمایش عرضه شده است، یک مدل 4.2 میلیارد پارامتری است که می‌تواند وظایف استدلال بصری کلی مانند پرسیدن سؤال در مورد نمودارها یا تصاویر را انجام دهد.

البته Phi-3-vision به مراتب بسیار کوچک‌تر از سایر مدل‌های هوش مصنوعی متمرکز بر تصویر مانند DALL-E یا Stable Diffusion است. برخلاف آن مدل‌ها، Phi-3-vision توانایی تولید تصویر ندارد، اما می‌تواند محتوای یک تصویر را درک کند و آن را برای کاربر تجزیه‌و‌تحلیل کند.

مایکروسافت در ماه آوریل Phi-3 را با عرضه Phi-3-mini، کوچکترین مدل این خانواده با 3.8 میلیارد پارامتر معرفی کرد. خانواده Phi-3 دو عضو دیگر نیز دارد: Phi-3-small (7 میلیارد پارامتر) و Phi-3-medium (14 میلیارد پارامتر).

Phi-3-vision اکنون به‌صورت پیش نمایش در دسترس است و درباره زمان عرضه جهانی آن اطلاعاتی وجود ندارد. سایر اعضای این خانواده نیز از طریق کتابخانه مدل Azure در دسترس هستند.