گوگل Gemini 1.5 متن های 1 میلیون کاراکتری را پردازش میکند!

گوگل مدل هوش مصنوعی جدید خود یعنی Gemini 1.5 را معرفی کرده است که ویژگی یک “پنجره متنی” تجربی با یک میلیون توکن را دارا می‌باشد.

این قابلیت جدید به Gemini 1.5 این امکان را می‌دهد که متن‌های بسیار طولانی تا یک میلیون کاراکتر را پردازش دهد تا مفهوم و سیاق آنها را درک کند. این موضوع با مدل‌های قبلی هوش مصنوعی مانند Claude 2.1 و GPT-4 Turbo که به ترتیب حداکثر در 200,000 و 128,000 توکن محدود هستند، مقایسه شود:

“جمینی 1.5 پرو بازخوانی نزدیک به کامل را در وظایف بازیابی متن با سیاق بلند در انواع مختلف داده، بهبود وضعیت هنر در سوال و جواب مستندات بلند، سوال و جواب ویدئو بلند و تبدیل متن به گفتار با سیاق بلند انجام می‌دهد و عملکرد بهتر یا معادل عملکرد برتر Gemini 1.0 Ultra را در مجموعه گسترده‌ای از بنچمارک‌ها تطابق یا به سرعت از آن پیشی می‌کند.”، گفته‌اند پژوهشگران گوگل در یک مقاله فنی.

کارایی مدل جدید گوگل به ساختار نوآورانه “مخلوط از متخصصان” (MoE) آن بازمی‌گردد.

“هرچند یک ترانسفورمر سنتی به عنوان یک شبکه عصبی بزرگ عمل می‌کند، مدل‌های MoE به شبکه‌های عصبی “متخصص” کوچک‌تر تقسیم می‌شوند.”، به توضیح می‌پردازد دمیس حسابیس، مدیر عامل گوگل دیپ‌مایند.

“بر اساس نوع ورودی داده شده، مدل‌های MoE یاد می‌گیرند که به‌طور انتخابی فقط مسیرهای متخصص مرتبط‌تر را در شبکه عصبی خود فعال کنند. این تخصص به طور چشمگیری کارایی مدل را افزایش می‌دهد.”

برای نمایش قدرت پنجره متنی 1M توکن، گوگل نشان داد چگونه Gemini 1.5 می‌تواند کل نسخه 326،914 توکنی گزارش پرواز آپولو 11 را جذب کند و سپس به درستی به سوالات خاص در مورد آن پاسخ دهد. همچنین، این مدل جزئیات کلیدی از فیلم بی‌صدا با 684،000 توکن را خلاصه کرد.

گوگل ابتدا دسترسی رایگان به نسخه محدود Gemini 1.5 با پنجره متنی یک میلیون توکن را به توسعه‌دهندگان و شرکت‌ها ارائه می‌دهد. عرضه عمومی با پنجره متنی 128،000 توکن و جزئیات قیمت‌گذاری در آینده انجام می‌شود.