مهندس کوچولو

مهندس کوچولو

یه مهندس خسته که مهندس کوچولوی درونش زنده است و دایم داره میچرخه دنبال چیزای جالب و جدید
توسط ۴ نفر دنبال می شود
 ۲ نفر را دنبال می کند

به‌روزرسانی جدید مدل DeepSeek R1 با انتشار در Hugging Face [ساعت] رسماً اعلام شد

به‌روزرسانی جدید مدل DeepSeek R1 با انتشار روی Hugging Face رسماً معرفی شد [تماشا کنید]

هرچند دیپ‌سیک اطلاعات رسمی درباره این مدل ارائه نکرده، اما کاربران از بهبود عملکرد آن در برخی بنچمارک‌ها و قابلیت‌ها اشاره کرده‌اند.

استارتاپ چینی DeepSeek که به‌عنوان یک رقیب جدی برای شرکت‌های هوش مصنوعی آمریکایی فعالیت می‌کند، به‌روزرسانی جدید مدل استدلالی R1 خود را از طریق پیام‌رسان WeChat معرفی و سپس در پلتفرم Hugging Face منتشر کرده است.

DeepSeek که امسال با مدل R1 توجه زیادی را به خود جلب کرد، حالا نسخه جدیدی از این مدل را با مجوز باز MIT روی پلتفرم Hugging Face منتشر کرده است. این مجوز به کاربران اجازه می‌دهد تا از این مدل به‌صورت تجاری استفاده کنند.

به گفته DeepSeek، این به‌روزرسانی جزئی است و نسبت به نسخه قبلی شامل چندین بهبود می‌شود. با این حال، مخزن مربوط به این مدل در Hugging Face فاقد توضیحات دقیق بوده و فقط شامل فایل‌های پیکربندی و وزن‌های مدل است؛ یعنی همان پارامترهایی که رفتار مدل را تعیین می‌کنند.

مدل جدید R1 دارای 685 میلیارد پارامتر است که نشان‌دهنده اندازه عظیم آن است. این حجم بالا باعث می‌شود اجرای مدل بدون تغییرات خاص روی سخت‌افزارهای خانگی ممکن نباشد.

عملکرد مدل جدید DeepSeek R1 از زبان کاربران

به‌روزرسانی جدید مدل DeepSeek R1 با انتشار روی Hugging Face رسماً معرفی شد [تماشا کنید]

طبق داده‌های منتشرشده توسط برخی کاربران فعال در حوزه مدل‌های هوش مصنوعی، نسخه جدید DeepSeek R1 عملکرد بهتری نسبت به نسخه قبلی خود در بنچمارک Thematic Generation ثبت کرده است. امتیاز این مدل در این آزمون از 1.80 به 1.74 کاهش یافته که نشان‌دهنده بهبود در توانایی مدل برای تولید محتوای موضوع‌محور است؛ چرا که در این معیار، امتیاز پایین‌تر نشان‌دهنده کیفیت بالاتر است.

همچنین کاربر دیگری با انتشار ویدیوی زیر که عملکرد DeepSeek-R1-0528 (نسخه جدید) را در برابر Claude-4-Sonnet نشان می‌دهد، ادعا کرده که این نسخه در حوزه استدلال منطقی با بهبود قابل‌توجهی همراه بوده است. طبق گفته این کاربر، مدل جدید در زمینه توسعه فرانت‌اند و استفاده هوشمندانه‌تر از ابزارها نیز پیشرفت کرده است.

این ارتقاها می‌تواند R1 را به گزینه‌ای قوی‌تر برای توسعه‌دهندگان و کاربران حرفه‌ای تبدیل کند.

DeepSeek در اوایل سال جاری با معرفی نسخه اولیه مدل R1 سر و صدای زیادی به‌پا کرد و حتی با رقبای بزرگی مانند OpenAI مقایسه شد. با‌این‌حال، فناوری این استارتاپ چینی توجه برخی نهادهای نظارتی آمریکایی را نیز به خود جلب کرده و برخی آن را تهدیدی برای امنیت ملی ایالات متحده دانسته‌اند.

این حرکت همچنین موج جدیدی از انتشار مدل‌ها توسط شرکت‌های چینی نظیر علی‌بابا و Zhipu AI را به دنبال داشت.

مهندس کوچولو
مهندس کوچولو یه مهندس خسته که مهندس کوچولوی درونش زنده است و دایم داره میچرخه دنبال چیزای جالب و جدید

شاید خوشتان بیاید

پاسخ ها

نظر خود را درباره این پست بنویسید
منتظر اولین کامنت هستیم!
آیدت: فروش فایل، مقاله نویسی در آیدت، فایل‌های خود را به فروش بگذارید و یا مقالات‌تان را منتشر کنید👋