هوش مصنوعی دیپ مایند در بازی‌های چندنفره هم انسان را شکست می‌دهد

هوش مصنوعی امروزه به‌قدری توسعه یافته است که می‌تواند انسان را پس از بازی‌های شطرنج و گو، در بازی‌های چندنفره نیز شکست دهد.

بازی «فتح پرچم» یکی از مشهورترین انواع بازی است که هم به‌‌صورت فیزیکی و هم دیجیتالی انجام می‌شود. از نمونه‌های مشهور آن می‌توان به Quake III و Overwatch اشاره کرد. در همه‌ی انواع فتح پرچم، با یک بازی گروهی روبه‌رو هستیم. هر گروه تلاش می‌کند تا در عین حفاظت از پرچم خود، پرچم تیم حریف را نیز در اختیار بگیرد و به پایگاه خود بیاورد. پیروزی در بازی فتح پرچم نیاز به همکاری‌های گروهی حرفه‌ای دارد و همچنین باید تعادلی کامل بین دفاع و حمله ایجاد شود.

مقاله‌های مرتبط:

در تعریف بازی فتح پرچم می‌توان ادعا کرد که مهارت‌های انسانی بیش از همه‌چیز اهمیت پیدا می‌کنند. البته دانشمندان هوش مصنوعی در آزمایشگاه دیپ مایند لندن، ثابت کردند که ماشین‌ها هم می‌توانند در این بازی مهارت پیدا کنند. در مقاله‌ای که چند روز پیش در مجله‌ی ساینس چاپ شد، محققان ادعا کردند که کارگزارهای هوشمندی با قابلیت شبیه‌سازی رفتارهای انسانی در بازی فتح پرچم توسعه داده‌اند.

برای انجام آزمایش روی کارگزارهای هوشمند، از بخش فتح پرچم بازی Quake III استفاده شد. کارگزارهای هوشمند توانستند به‌صورت گروهی دربرابر بازیکنان انسانی یا درکنار آن‌ها بازی کرده و رفتارهای آن‌ها را به‌خوبی شبیه‌سازی کنند. ووسیچ کارنگی، از محققان دیپ مایند درباره‌ی آزمایش می‌گوید: «کارگزارهای هوشمند به‌خوبی با اعضای تیم خود هماهنگ می‌شوند».

کارگزارهای هوشمند با هزاران ساعت بازی توانستند مهارت‌هایی کاربردی در بازی فتح پرچم کسب کنند. به‌عنوان مثال آن‌ها آموختند که در موقع حمله و پس از در اختیار گرفتن پرچم حریف توسط یکی از هم‌تیمی‌ها، با سرعت به سمت قلعه‌ی حریف حرکت کنند. دلیل حرکت یادشده نیز آن است که پس از آوردن یک پرچم از حریف به قلعه‌ی خودی، پرچمی دیگر در پایگاه آن‌ها ایجاد می‌شود و می‌توان راحت‌تر آن را تصاحب کرد. درنتیجه یک بازیکن باید در نزدیکی پایگاه حریف باقی بماند.

پروژه‌ی کنونی دیپ مایند با هدف توسعه‌ی هوش مصنوعی انجام می‌شود که بتواند در بازی‌های سه‌بعدی پیچیده مانند Quake III، Dta 2 و StarCraft II حرفه‌ای بازی کند. محققان بسیاری اعتقاد دارند درصورت موفقیت کارگزارها در دنیای مجازی، می‌توان سیستم‌های اتوماتیکی با توانایی‌های عالی در دنیای واقعی توسعه داد.

به‌عنوان نمونه‌ای از کاربردهای واقعی هوش مصنوعی می‌توان به انبارداری رباتیک اشاره کرد. در انبارهایی که ربات‌ها به‌صورت گروهی کالاها را جابه‌جا می‌کنند، می‌توان از هوش مصنوعی با قابلیت همکاری گروهی بهره‌برداری کرد. به‌علاوه در خودروهای خودران نیز می‌توان از کارگزارهای جدید بهره برد. گرگ بروکمن، محقق هوش مصنوعی که پروژه‌ی مشابهی را در OpenAI مدیریت می‌کند، درباره‌ی بازی‌ها و هوش مصنوعی می‌گوید:

بازی‌ها همیشه دستاورد مهمی برای هوش مصنوعی بوده‌اند. اگر شما نتوانید معمای بازی‌ها را حل کنید، نمی‌توانید هیچ چیز دیگر را حل کنید.

تا پیش از این، توسعه‌ی یک هوش مصنوعی که بتواند در بازی‌هایی همچون Quake III با انسان رقابت کند، تقریبا غیرممکن بود. در طول سال‌های گذشته، DeepMind و OpenAI و آزمایشگاه‌های بسیار دیگری برای حل این چالش وارد عمل شده‌اند و پیشرفت‌های قابل‌توجهی هم داشته‌اند. عمده‌ی موفقیت‌های آن‌ها به‌لطف استفاده از روشی ریاضیاتی به‌نام یادگیری تقویتی (Reinforcement Learning) به‌دست آمد.

کارگزار هوشمند با بازی کردن چندین‌باره‌ی بازی‌ها می‌تواند استراتژی‌های منجر به پیروزی و شکست را شناسایی کند. به‌عنوان مثال وقتی کارگزاری با رفتن به سمت پایگاه حریف در زمان در اختیار داشتن پرچم توسط هم‌تیمی‌ها امتیاز بیشتری دریافت کند، این روش را به مجموعه‌ی استراتژی‌های عملکردی خود اضافه می‌کن

محققان دیپ مایند در سال ۲۰۱۶ با به‌کارگیری روش یادگیری تقویتی توانستند هوش مصنوعی با قابلیت شکست برترین بازیکنان بازی سنتی Go توسعه دهند. بسیاری از متخصصان به‌خاطر پیچیدگی‌های فراوان بازی گو تصور می‌کردند پیروزی هوش مصنوعی در آن تا دهه‌ها بعد ممکن نخواهد بود. درحالی‌که مهندسان دیپ مایند خلاف این تصور را ثابت کردند.

بازی‌های ویدئویی اول‌شخص، دشواری‌های بسیار پیچیده‌تری نسبت به بازی‌های تخته‌ای همچون شطرنج و گو دارند. به‌علاوه وقتی همکاری و موقعیت‌دهی هم‌تیمی‌ها در بازی مطرح شود، پیچیدگی چندین برابر خواهد شد. کارگزار هوشمند دیپ مایند با ۴۵۰ هزار بار بازی کردن فتح پرچم توانست اصول آن را بیاموزد. کارگزارها ابتدا عملکردی فاجعه‌بار داشتند و به‌راحتی شکست می‌خوردند. آن‌ها به‌مرور جزئیات بازی و نکات ریز آن را به‌همراه استراتژی‌های حمله و دفاع آموختند

پیروزی در بازی Go، دستاورد بزرگ هوش مصنوعی دیپ مایند بود

مهندسان دیپ مایند پس از پایان پروژه‌ی بازی فتح پرچم، کارگزاری با قابلیت شکست بازیکنان حرفه‌ای در بازی StarCraft II توسعه دادند. در آزمایشگاه OpenAI نیز یک هوش مصنوعی توسعه داده شد که در بازی Dota 2 مهارت دارد. این بازی را می‌توان نسخه‌ای حرفه‌ای از فتح پرچم دانست. در ماه آوریل گذشته، یک تیم پنج‌نفره از کارگزارهای هوش مصنوعی توانست تیم پنج‌نفره‌ی بازیکنان حرفه‌ای Dota 2 را شکست دهد.

ویلیام لی از بازیکنان مشهور دوتا ۲ است که سال گذشته با نمونه‌های اولیه‌ی کارگزار هوش مصنوعی رقابت کرد. هوش مصنوعی در آن زمان تنها می‌توانست بازی‌های یک‌نفره را انجام دهد و ویلیام عملکرد آن را نپسندید. البته پس از ماه‌ها تمرین و حرفه‌ای شدن هوش مصنوعی، ویلیام اکنون مهارت آن‌ها را تحسین می‌کند:

تصور نمی‌کردم که ماشین‌ها روزی بتوانند بازی را در تیم‌های پنج‌نفره انجام دهند، چه برسد به آن که در آن پیروز شوند.

در مقابل کاربران و گیمرهایی که از پیشرفت‌های هوش مصنوعی در بازی‌ها شگفت‌زده می‌شوند، بسیاری از متخصصان هوش مصنوعی، کاربردی بودن دستاوردهای جدید را زیر سؤال می‌برند. آن‌ها می‌گویند پیروزی در بازی‌ها نمی‌تواند کاربردی در دنیای واقعی داشته باشد. مارک ریدل، استاد دانشگاه جورجیا تک و از متخصصان هوش مصنوعی اعتقاد دارد کارگزارهای دیپ مایند در آزمایش‌های فوق، همکاری واقعی نداشتند. او می‌گوید کارگزارهای به‌جای ردوبدل کردن پیام مانند انسان‌ها، تنها به رخدادهای داخل بازی واکنش نشان می‌دهند.

شاید در نگاه اول، فعالیت کارگزارها مانند همکاری به چشم باید. درحالی‌که آن‌ها به این دلیل موفق می‌شوند که هرکدام به‌تنهایی درکی از رخدادهای درحال وقوع در بازی دارند. مکس جادربرگ از محققان دیپ مایند اعتقاد دارد تعریف همکاری گروهی را باید برای توضیح فعالیت‌های کارگزارهای هوشمند در نظر گرفت. او می‌گوید همین‌که کارگزار هوشمند در پایگاه حریف منتظر پرچم جدید می‌ماند، یعنی به فعالیت‌های هم‌تیمی‌هایش وابسته است.

کارگزار هوش مصنوعی در بازی فتح پرچم، همکاری و استراتژی را می‌آموزد

بازی‌هایی شبیه به آنچه در آزمایش بالا انجام شد، به‌هیچ‌وجه به‌اندازه‌ی دنیای واقعی پیچیده نیستند. محیط این بازی‌ها به‌گونه‌ای طراحی شده است که حرکت را آسان کند و درنتیجه، استراتژی و موقعیت‌یابی در آن‌ها اصلا دشوار نیست.

روش یادگیری تقویتی را می‌توان روشی کاربردی برای بازی‌ها دانست. درواقع در بازی‌های ویدئویی، شناسایی فاکتورهایی برای موفقیت، دشواری آن‌چنانی ندارد. به‌عنوان مثال امتیازهای بیشتر در بازی می‌توانند علامتی از موفقیت برای کارگزار هوشمند باشند. درمقابل در دنیای واقعی، هیچ فاکتوری برای درک موفقیت وجود ندارد. احتمالا محققان برای پیاده‌سازی یادگیری تقویتی در دنیای واقعی، باید فاکتورهای موفقیت را برای هوش مصنوعی در فضاهای واقعی بازتعریف کنند.

پیاده‌سازی یادگیری تقویتی در دنیای واقعی هم آن‌چنان دشوار نیست. محققان OpenAI توانسته‌اند بازوی رباتیکی طراحی کنند که با مکعب‌های الفبایی به‌خوبی کار کند. اگر از این بازو بخواهید حرف مشخصی از الفبا را نشان دهد، به‌راحتی و سرعت، حرف مورد نظر را نمایش می‌دهد. در نمونه‌ای دیگر، مهندسان رباتیک گوگل بازویی طراحی کردند که توانایی برداشتن و پرتاب کردن اجسام گوناگون در یک ظرف هدف را دارد. چنین رباتی می‌تواند در انبارهای بزرگ و مراکز توزیع کاربرد داشته باشد.

آزمایشگاه‌هایی همچون دیپ مایند و OpenAI با تلاش برای حل مسائل پیچیده‌تر، احتمالا به منابع پردازشی بزرگ‌تری نیاز پیدا خواهند کرد. آن‌ها تاکنون با تکیه بر هزاران تراشه‌ی پردازشی توانسته‌اند در بازی‌های دشوار مهارت پیدا کنند. چنین روندی قطعا افزایش هزینه در این آزمایشگاه‌ها را در پی خواهد داشت که متخصصان باید توجیه‌هایی قابل‌قبول‌تر برای آن داشته باشند.