گوگل مدل هوش مصنوعی جدید خود یعنی Gemini 1.5 را معرفی کرده است که ویژگی یک “پنجره متنی” تجربی با یک میلیون توکن را دارا میباشد.
این قابلیت جدید به Gemini 1.5 این امکان را میدهد که متنهای بسیار طولانی تا یک میلیون کاراکتر را پردازش دهد تا مفهوم و سیاق آنها را درک کند. این موضوع با مدلهای قبلی هوش مصنوعی مانند Claude 2.1 و GPT-4 Turbo که به ترتیب حداکثر در 200,000 و 128,000 توکن محدود هستند، مقایسه شود:
“جمینی 1.5 پرو بازخوانی نزدیک به کامل را در وظایف بازیابی متن با سیاق بلند در انواع مختلف داده، بهبود وضعیت هنر در سوال و جواب مستندات بلند، سوال و جواب ویدئو بلند و تبدیل متن به گفتار با سیاق بلند انجام میدهد و عملکرد بهتر یا معادل عملکرد برتر Gemini 1.0 Ultra را در مجموعه گستردهای از بنچمارکها تطابق یا به سرعت از آن پیشی میکند.”، گفتهاند پژوهشگران گوگل در یک مقاله فنی.
کارایی مدل جدید گوگل به ساختار نوآورانه “مخلوط از متخصصان” (MoE) آن بازمیگردد.
“هرچند یک ترانسفورمر سنتی به عنوان یک شبکه عصبی بزرگ عمل میکند، مدلهای MoE به شبکههای عصبی “متخصص” کوچکتر تقسیم میشوند.”، به توضیح میپردازد دمیس حسابیس، مدیر عامل گوگل دیپمایند.
“بر اساس نوع ورودی داده شده، مدلهای MoE یاد میگیرند که بهطور انتخابی فقط مسیرهای متخصص مرتبطتر را در شبکه عصبی خود فعال کنند. این تخصص به طور چشمگیری کارایی مدل را افزایش میدهد.”
برای نمایش قدرت پنجره متنی 1M توکن، گوگل نشان داد چگونه Gemini 1.5 میتواند کل نسخه 326،914 توکنی گزارش پرواز آپولو 11 را جذب کند و سپس به درستی به سوالات خاص در مورد آن پاسخ دهد. همچنین، این مدل جزئیات کلیدی از فیلم بیصدا با 684،000 توکن را خلاصه کرد.
گوگل ابتدا دسترسی رایگان به نسخه محدود Gemini 1.5 با پنجره متنی یک میلیون توکن را به توسعهدهندگان و شرکتها ارائه میدهد. عرضه عمومی با پنجره متنی 128،000 توکن و جزئیات قیمتگذاری در آینده انجام میشود.
پاسخ ها