مایکروسافت سیستم جدیدی را ابداع کرده که با دقت ۹۹ درصد امنیتی یا غیر امنیتی بودن باگهای نرم افزاری را شناسایی می کند.
مایکروسافت که پیش از این به استفاده از هوش مصنوعی و یادگیری ماشین برای تقویت کارایی آنتی ویروس خود روی آورده بود، حالا از این فناوریها برای شناسایی باگهای نرم افزاری استفاده میکند. این شرکت سیستمی را ابداع کرده که با دقت ۹۹ درصد باگهای امنیتی را از موارد کم اهمیت تشخیص میدهد. دیگر قابلیت این سیستم شناسایی باگهای حیاتی و با اولویت بالا در ۹۷ درصد موارد است.
در توسعه این مدل مبتنی بر یادگیری ماشین از ۱۳ میلیون باگ و آیتم شناسایی شده توسط ۴۷ هزار توسعه دهنده استفاده شده که در مخازن گیت هاب و AzureDevOps ذخیره شدهاند. این سیستم ابتدا تمایز بین باگ های امنیتی و غیر امنیتی را فراگرفته و در مرحله بعد آنها را با عبارت های حیاتی، مهم یا کم اثر برچسب گذاری میکند.
مدل مذکور در تشخیص باگها از دو تکنیک استفاده میکند. روش اول که الگوریتم TF-IDF یا «معکوس فراوانی در سند» نام دارد ابتدا تعداد دفعات وجود یک کلمه در سند را تعیین کرده و عدد بدست آمده را با مجموعهای از عناوین از پیش تعیین شده مقایسه میکند. به گفته مایکروسافت عناوین باگ آنها معمولا کوتاه بوده و حدودا شامل ۱۰ کلمه میشود.
غول نرم افزاری در تکنیک دوم از مدل رگرسیون لجستیک خود استفاده میکند که با تکیه بر تابع لجستیک احتمال وجود یک رویداد را مدل سازی میکند. مایکروسافت نحوه بکارگیری یادگیری ماشین و متخصصان امنیتی برای شناسایی باگ را بدین شکل شرح داده است:
توسعه دهندگان نرم افزار هر روزه با لیست بلندبالایی از قابلیت ها و باگها سرو کار دارند. متخصصان امنیتی برای کمک به آنها با استفاده از ابزارهای خودکار باگهای امنیتی را اولویت بندی میکنند اما گاهی تشخیص اشتباه باعث هدر رفتن زمان زیادی از مهندسان میشود. تیم های امنیتی و علوم داده برای حل این مشکل گرد هم آمده و راههای استفاده از پتانسیلهای یادگیری ماشین را بررسی کردند. ما دریافتیم که با کنار هم قرار دادن مدل های یادگیری ماشین و متخصصان امنیتی میتوان شناسایی و طبقه بندی باگها را به شکل چشمگیری بهبود بخشید.
سیستم شناسایی باگ مایکروسافت در این شرکت به کار گرفته شده و با دادههای جدید آموزش میبیند. این داده ها توسط متخصصانی تدوین شده که بر میزان وقوع باگ طی فرایند توسعه نرم افزار نظارت دارند. در ماه های آتی روش مورد استفاده در این مدل همراه با مدلهای نمونه از طریق گیت هاب به صورت متن باز منتشر خواهد شد.
پاسخ ها