اخیراً و درنتیجه آزمایشی که برای اندازهگیری هوش عمومی طراحیشده، یک مدل جدید هوش مصنوعی به نتایجی در سطح هوش انسانی دستیافته است.
خبرآنلاین نوشت: اخیرا سیستم OpenAI o۳، توانست تا در معیار ARC-AGI به امتیاز ۸۵% برسد که بهمراتب بالاتر از بهترین امتیاز ثبتشده توسط هوش مصنوعی قبلی یعنی ۵۵ درصد بود و امتیازی همتراز با میانگین امتیاز انسانی به دست آورد. این سیستم بهعلاوه در یک آزمون ریاضی خیلی سخت هم نمره خوبی کسب کرد.
ایجاد هوش عمومی مصنوعی (AGI)، هدف تعیینشده همه آزمایشگاههای اصلی تحقیقاتی هوش مصنوعی است که در نگاه اول اینطور به نظر میرسد که حداقل OpenAI گام بزرگی در جهت محقق کردن این هدف برداشته است.
در این میان که تردیدهای زیادی وجود دارد، بسیاری از محققان و توسعهدهندگان هوش مصنوعی حس میکنند که چیزی تغییر کرده و ازنظر خیلی از افراد، حالا چشمانداز AGI واقعیتر، فوریتر و نزدیکتر از حد انتظار به نظر میرسد؛ اما آیا حق با آنهاست؟
تعمیم و هوش
برای درک اینکه معنی واقعی نتیجه o۳ چیست، باید با مفهوم تست ARC-AGI آشنا شوید؛ ازنظر فنی، این آزمایش یک سیستم هوش مصنوعی از "کارایی نمونه" در انطباق با چیزی جدید است. (چند نمونه از یک موقعیت جدید که سیستم باید ببیند تا متوجه شود که چگونه کار میکند.)
یک سیستم هوش مصنوعی مثل ChatGPT (GPT-۴) خیلی کارآمد نیست. این سیستم بر روی میلیونها نمونه از متون انسانی آموزش داده شد و قوانین احتمالی متعددی درباره متحملترین ترکیبهای کلمات ایجاد کرد. نتیجه در کارهای معمول بسیار خوب بود ولی در کارهای غیرمعمول چندان خوب عمل نمیکرد؛ چراکه دادههای کمتر (نمونههای کمتری) در مورد آن وظایف در اختیار داشت.
تا زمانی که سیستمهای هوش مصنوعی نتوانند از تعداد مثالهای کمی بیاموزند و با نمونههای کاربردی بیشتری سازگار شوند، فقط برای کارهای معمول و تکراری و البته مواردی که در آنها ناکامی و شکست قابلپذیرش باشد، مورداستفاده قرار میگیرند. توانایی حل دقیق مسائل ناشناخته قبلی یا مشکلات جدید از نمونههای دادههای محدود، بهعنوان ظرفیت تعمیم شناخته میشود و این به شکل گستردهای یک عنصر ضروری و اساسی هوش در نظر گرفته میشود.
شبکهها و الگوها
معیار ARC-AGI برای انطباق کارآمد نمونه، با استفاده از مسئلههای شبکهای مربعی کوچک مانند نمونه زیر، آزمایشهایی را انجام میدهد و هوش مصنوعی باید الگویی را پیدا کند که شبکه سمت چپ را به شبکه سمت راست تبدیل کند.
در هر سؤال، سه مثال برای یادگیری ارائه میشود. سپس سیستم هوش مصنوعی باید قوانینی که در سه مثال قبلی آموخته را به نمونه چهارم تعمیم دهد. اینها خیلی شبیه به تستهای IQ هستند.
قوانین ضعیف و سازگاری
ما دقیقاً نمیدانیم که OpenAI چطور این کار را انجام داده، اما نتایج حاکی از آن است که مدل o۳ سازگاری بالایی دارد و از چند مثال محدود میتواند قوانینی را کشف کند که قابلتعمیم دادن باشند.
برای کشف یک الگو، نباید فرضهای غیرضروری داشته باشیم، یا دقیقتر ازآنچه واقعاً هستیم باشیم. در تئوری، اگر بتوانید ضعیفترین قوانینی که کاری که را میخواهید انجام میدهند را شناسایی کنید، توانایی خود را برای سازگاری با موقعیتهای جدید به حداکثر رساندهاید.
اما منظور از ضعیفترین قوانین چیست؟ تعریف فنی آن پیچیده است، اما معمولاً قوانین ضعیفتر، آنهایی هستند که میتوان آنها را با عبارات سادهتری توصیف کرد. مثلاً در مثال بالا، یک تعریف ساده از قانون چیزی شبیه به این است: "هر شکلی با یک خط بیرون زده، به سمت انتهای آن خط حرکت میکند و هر شکل دیگری را که با آن همپوشانی دارد، میپوشاند."
جستجوی زنجیرههای فکری
در شرایطی که هنوز نمیدانیم که OpenAI چگونه به این نتیجه دستیافته، بعید است که آنها عمداً سیستم o۳ را برای یافتن قوانین ضعیف بهینه کرده باشند. بااینحال، برای موفقیت در وظایف ARC-AGI باید آنها را پیدا کرد.
ما میدانیم که OpenAI کار را با یک نسخه همهمنظوره از مدل o۳ شروع کرد (که با اکثر مدلهای دیگر متفاوت است؛ چراکه میتواند زمان بیشتری را صرف فکر کردن درباره سؤالات دشوار کند) و سپس آن را بهطور خاص برای آزمون ARC-AGI آموزش داد.
فرانسوا شوله، محقق فرانسوی هوش مصنوعی که این معیار را طراحی کرده براین باور است که o۳ از طریق "زنجیرههای فکری" مختلفی که گامهایی برای حل مسئله را توصیف میکنند، به جستجو میپردازد و درنهایت بر اساس برخی قاعدههای تعریفشده یا هیوریستیک، بهترین را انتخاب میکند.
این بیشباهت به نحوه جستجوی سیستم AlphaGo گوگل که ممکن است در توالیهای مختلفی از حرکات، برای شکست دادن قهرمان جهان Go اقدام میکند، نیست.
شما میتوانید به این زنجیرههای فکری مثل برنامههایی که با نمونهها مطابقت دارند، نگاه کنید؛ البته، اگر مثل هوش مصنوعی Go-playing باشد، به یک قانون هیوریستیک یا سست نیاز است تا بتواند تصمیم بگیرد که کدام برنامه بهترین است. ممکن است هزاران برنامه مختلف بهظاهر معتبر تولیدشده باشد. ابتکار ممکن است این باشد که شما "ضعیفترین" یا "سادهترین" را انتخاب کنید.
بااینحال، اگر مثل AlphaGo باشد، بهسادگی یک هوش مصنوعی است که یک هیوریستیک ایجاد میکند. این روند برای AlphaGo بود و گوگل مدلی را آموزش داد تا توالیهای مختلف حرکت بهصورت بهتر یا بدتر از سایرین ارزیابی کند.
پاسخ ها