آشکار شدن ردپای تعصبات نژادی در الگوریتم های هوش مصنوعی تشخیص صدا

احتمال وجود تعصب، نژادپرستی و جانب‌‌گرایی در الگوریتم‌های هوش مصنوعی از نگرانی‌های عمده‌ی محققان است و در الگوریتم‌های تشخیص صدا هم دیده می‌شود.

اتکا به الگوریتم‌ها و واگذار کردن تصمیم‌گیری‌های مهم به آن‌ها، روز‌به‌روز در دنیای فناوری بیشتر می‌شود. درواقع انسان‌ها بیش از همیشه تصمیم‌گیری را برعهده‌ی الگوریتم‌ها می‌گذارند تا شاید راحت‌تر زندگی کنند. ازطرفی این تصور وجود دارد که الگوریتم‌های کامپیوتری و هوش مصنوعی به‌صورت کلی، به تعصب‌های رایج در میان انسان‌ها دچار نیستند. ازطرفی، الگوریتم‌ها براساس داده‌ها آموزش می‌بینند و داده‌ها با همان تعصب ذاتی انسانی جمع‌آوری شده‌اند. درنتیجه امروز شاهد الگوریتم‌های هوش مصنوعی هستیم که تعصب و بعضا نژادپرستی توسعه‌دهنده‌های خود را تکرار می‌کنند. تاکنون مثال‌های متعددی از تعصب در تصمیم‌گیری الگوریتم‌های هوش مصنوعی دیده شده است. ظاهرا اکثر الگوریتم‌ها به تعصب دچار هستند.

محققان دانشگاه استنفورد در جدیدترین تحقیقات خود، حوزه‌ی جدیدی را کشف کرده‌اند که احتمالا از خطر تعصب و نژادپرستی الگوریتمی در امان نیست. الگوریتم‌های تشخیص صدا که کاربردهای متنوعی از تبدیل ساده‌ی صوت به متن تا دریافت دستورهای صوتی در گوشی‌های هوشمند را انجام می‌دهند، دچار تعصب ذاتی هستند. ظاهرا این الگوریتم‌ها در تشخیص صدای افرادی با نژاد آفریقایی آمریکایی مشکلات عملکردی پیدا می‌کنند. البته برخی شواهد نشان می‌دهد که مختصات جغرافیایی هم در عملکرد آن‌‌ها تأثیر دارد.

سیستم‌های تشخیص صدا امروز به بخشی مهم و حیاتی در دنیای فناوری تبدیل شده‌اند. تقریبا هر شرکت بزرگ دنیای فناوری، سیستم تشخیص صدای اختصاصی خود را دارد. گروه تحقیقات برای آزمایش خود سیستم‌ تشخیص صدای شرکت‌های آمازون، اپل، گوگل، مایکروسافت و IBM را مورد بررسی قرار داد. اگرچه برخی از سرویس‌ها به‌عنوان سرویس فروشی به کسب‌وکارهای دیگر ارائه می‌شوند، الگوریتم‌های اپل و گوگل به‌صورت مستقیم در گوشی هوشمند مصرف‌کننده‌ها کاربرد دارند. نقش روزافزون الگوریتم‌‌ها در زندگی مردم، خطا در عملکرد آن‌ها را برای بسیاری ناراحت‌کننده و آزاردهنده می‌کند. محققان در تحقیقات خود تلاش کردند تا هرگونه تعصب یا نژادپرستی را در اختلال‌های عملکردی الگوریتم‌ها تشخیص دهند.

گروه تحقیقاتی برای آزمایش الگوریتم‌ها، مجموعه‌ای عظیم از نمونه‌های صوتی را جمع‌آوری کرد. دو مجموعه‌ی آزمایشی، اکثرا شامل صداهای یک گروه خاص بودند. یک مجموعه، بیشتر شامل صدای آفریقایی-آمریکایی‌های مقیم کارولینای شمالی و دیگر اکثرا شامل صدای سفیدپوستان آن منطقه بود. نمونه‌های دیگر، شامل صداهای گوناگون و ترکیبی از نژادهای دیگر بودند. نمونه‌های از مناطقی همچون راچستر نینیورک، ساکرامنتو کالیفرنیا و واشینگتن دی‌سی جمع‌آوری شدند. تمامی مجموعه‌های صوتی در همه‌ی پنج الگوریتم بزرگ تشخیص صدا آزمایش شدند. دقت الگوریتم‌ها ازطریق مقایسه با تشخیص صدا توسط کاربر انسانی، اندازه‌گیری شد.

آمازون اکو دات

محققان برای آزمایش خود معیاری به‌نام «نرخ خطای کلمه‌ای» تعیین کردند. خطا شامل کلمات تشخیص‌داده نشده و کلماتی می‌شد که به اشتباه توسط الگوریتم تفسیر می‌شدند. همه‌ی سیستم‌های تشخیص صدا عملکردی مناسب را در آزمایش نشان دادند و همگی نرخی کمتر از ۰/۵ داشتند. در آزمایش مذکور، سیستم اپل بدترین و سیستم مایکروسافت، بهترین امتیازها را دریافت کردند. در همه‌ی آزمایش‌ها، نرخ خطا در صداهای گروه آفریقایی-آمریکایی، بیشتر از نرخ خطا در گروه سفیدپوست بود. درواقع به‌صورت کلی نرخ خطای دوبرابری در تشخیص صدای یک نژاد دیده می‌شد.

نرخ خطای سیستم‌های تشخیص صدا در تفسیر صدای مردان از نژاد آفریقایی-آمریکایی بیش از همه بود. مردان و زنان سفیدپوست نرخ خطای میانگین ۰/۲۱ و ۰/۱۷ داشتند، درحالیکه نرخ خطای زنان آفریقایی-آمریکایی برابر با ۰/۳ و برای مردان آن نژاد برابر با ۰/۴۱ بود.

تفاوت در نرخ خطای سیستم‌‌های تشخیص صدا در تفسیر صدا از نژادهای گوناگون چه اهمیتی دارد؟ محققان ادعا می‌کنند که بسته به کارایی سیستم‌ها، تفاوت در نرخ خطا اهمیت بالایی پیدا می‌کند. وقتی نرخ خطا از حدی بالاتر برود، اصلاح تبدیل صوت به متن کامپیوتری زمان بیشتری نسبت به نوشتن دستی توسط خود فرد نیاز خواهد داشت. به‌علاوه، با نرخ خطای بالا، گوشی هوشمند شما اکثر فرمان‌های صوتی را اشتباه انجام می‌دهد.

شاید نتایج بالا، به منطقه‌ی جغرافیایی وابسته باشند. از نظر آمریکایی‌ها، شهروندان کالیفرنیا عموما به‌عنوان افرادی بدون لهجه شناخته می‌شوند. نمونه‌های صوتی آن منطقه، نرخ خطای پایینی داشتند. منطقه‌ی راچستر هم نتایجی نزدیک به کالیفرنیا داشت و نتایج منطقه‌ی کلمبیا، به منطقه‌ی روستایی در کارولینای شمالی نزدیک‌تر بود. اگر فرض کنیم موقعیت جغرافیایی، در نرخ خطای الگوریتم‌ها تأثیر داشته باشد، باید نمونه‌های بزرگ‌تری برای آزمایش خطا به‌کار گرفته شود.

محققان در مرحله‌ی بعدی، ساختاربندی زبان را تحلیل کردند. از آنجایی که آن‌ها به الگوریتم‌های پایه‌ی پنج سیستم برتر دسترسی نداشتد، از پکیج متن‌بازی استفاده کردند که کارایی‌های مشابه دارد. آن‌ها درک نرم‌افزار از زبان را با فاکتوری به‌نام perplexity بررسی کردند. این فاکتور، قدرت پیش‌بینی کلمه‌ی بعدی در یک جمله را در سیستم تشخیص صوت بررسی می‌کند. با بررسی فاکتور مذکور مشخص شد که سیستم‌ها توانایی بهتری در تشخیص ساختاربندی زبان آفریقایی-آمریکایی‌ها دارند. چرا نتایج به‌ اینگونه شکل گرفتند؟

سیری / Siri

محققان با بررسی دو نوع خروجی تحقیقاتی به این نتیجه رسیدند که دو گرایش نژادی در صحبت کردن وجود دارد. آفریقایی-آمریکایی‌ها نسبت به همشهری‌های سفیدپوست خود، از تعداد کلمات کمتری استفاده می‌کنند. ازطرفی جمله‌بندی آن‌ها ساختار پیچیده‌تری دارد. آن‌ها در بسیاری از موارد، کلمات را از میان جمله‌ها حذف می‌کنند، اما مخاطب به‌راحتی منظورشان را متوجه می‌شود.

در مجموع یافته‌های دانشمندان این سؤال مطرح می‌شود که سیستم‌‌های تجاری چقدر برای واکنش بهتر به صداهای یک نژاد خاص بهینه‌سازی شده‌اند. محققان برای پیدا کردن پاسخ، نمونه‌های موجود را جست‌وجو گردند تا عبارت‌های مشابه و برابر بین دو نژاد را پیدا کنند. وقتی این عبارت‌های مشابه در سیستم‌ها آزمایش شدند، باز هم نرخ خطای آفریقایی-آمریکایی‌ها بیشتر از سفیدپوستان بود.

سیستم‌های تشخص صدا باید فاکتورهای متعددی را در تفسیر صحبت کاربران در نظر بگیرند. تشخیص کلمه‌ها، ساختاربندی جمله‌ها و معنای مورد نظر مخاطب، برخی از فاکتورها هستند. با بررسی تجمیعی همه‌ی فاکتورها می‌توان کلمات را به‌خوبی پیش‌بینی کرد. سیستم‌های تجاری کنونی ظاهرا در تفسیر کلمات برخی از جوامع با چالش روبه‌رو هستند. این سیستم‌ها در ذات خود جانب‌گرا طراحی نشده‌اند. ظاهرا زیرمجموعه‌ای از همه‌ی صداهای موجود در ایالات متحده برای آموزش سیستم‌ها استفاده شده است. درنتیجه آن‌ها برای تشخیص برخی صداها، آموزش کافی را ندیده‌اند. درنهایت این وظیفه برعهده‌ی شرکت‌های توسعه‌دهنده خواهد بود تا مجموعه‌ی آموزشی سیستم‌ها را برای درک بهتر گفتار همه‌ی گروه‌های جامعه، بهینه‌سازی کنند.