احتمال وجود تعصب، نژادپرستی و جانبگرایی در الگوریتمهای هوش مصنوعی از نگرانیهای عمدهی محققان است و در الگوریتمهای تشخیص صدا هم دیده میشود.
اتکا به الگوریتمها و واگذار کردن تصمیمگیریهای مهم به آنها، روزبهروز در دنیای فناوری بیشتر میشود. درواقع انسانها بیش از همیشه تصمیمگیری را برعهدهی الگوریتمها میگذارند تا شاید راحتتر زندگی کنند. ازطرفی این تصور وجود دارد که الگوریتمهای کامپیوتری و هوش مصنوعی بهصورت کلی، به تعصبهای رایج در میان انسانها دچار نیستند. ازطرفی، الگوریتمها براساس دادهها آموزش میبینند و دادهها با همان تعصب ذاتی انسانی جمعآوری شدهاند. درنتیجه امروز شاهد الگوریتمهای هوش مصنوعی هستیم که تعصب و بعضا نژادپرستی توسعهدهندههای خود را تکرار میکنند. تاکنون مثالهای متعددی از تعصب در تصمیمگیری الگوریتمهای هوش مصنوعی دیده شده است. ظاهرا اکثر الگوریتمها به تعصب دچار هستند.
محققان دانشگاه استنفورد در جدیدترین تحقیقات خود، حوزهی جدیدی را کشف کردهاند که احتمالا از خطر تعصب و نژادپرستی الگوریتمی در امان نیست. الگوریتمهای تشخیص صدا که کاربردهای متنوعی از تبدیل سادهی صوت به متن تا دریافت دستورهای صوتی در گوشیهای هوشمند را انجام میدهند، دچار تعصب ذاتی هستند. ظاهرا این الگوریتمها در تشخیص صدای افرادی با نژاد آفریقایی آمریکایی مشکلات عملکردی پیدا میکنند. البته برخی شواهد نشان میدهد که مختصات جغرافیایی هم در عملکرد آنها تأثیر دارد.
سیستمهای تشخیص صدا امروز به بخشی مهم و حیاتی در دنیای فناوری تبدیل شدهاند. تقریبا هر شرکت بزرگ دنیای فناوری، سیستم تشخیص صدای اختصاصی خود را دارد. گروه تحقیقات برای آزمایش خود سیستم تشخیص صدای شرکتهای آمازون، اپل، گوگل، مایکروسافت و IBM را مورد بررسی قرار داد. اگرچه برخی از سرویسها بهعنوان سرویس فروشی به کسبوکارهای دیگر ارائه میشوند، الگوریتمهای اپل و گوگل بهصورت مستقیم در گوشی هوشمند مصرفکنندهها کاربرد دارند. نقش روزافزون الگوریتمها در زندگی مردم، خطا در عملکرد آنها را برای بسیاری ناراحتکننده و آزاردهنده میکند. محققان در تحقیقات خود تلاش کردند تا هرگونه تعصب یا نژادپرستی را در اختلالهای عملکردی الگوریتمها تشخیص دهند.
گروه تحقیقاتی برای آزمایش الگوریتمها، مجموعهای عظیم از نمونههای صوتی را جمعآوری کرد. دو مجموعهی آزمایشی، اکثرا شامل صداهای یک گروه خاص بودند. یک مجموعه، بیشتر شامل صدای آفریقایی-آمریکاییهای مقیم کارولینای شمالی و دیگر اکثرا شامل صدای سفیدپوستان آن منطقه بود. نمونههای دیگر، شامل صداهای گوناگون و ترکیبی از نژادهای دیگر بودند. نمونههای از مناطقی همچون راچستر نینیورک، ساکرامنتو کالیفرنیا و واشینگتن دیسی جمعآوری شدند. تمامی مجموعههای صوتی در همهی پنج الگوریتم بزرگ تشخیص صدا آزمایش شدند. دقت الگوریتمها ازطریق مقایسه با تشخیص صدا توسط کاربر انسانی، اندازهگیری شد.
محققان برای آزمایش خود معیاری بهنام «نرخ خطای کلمهای» تعیین کردند. خطا شامل کلمات تشخیصداده نشده و کلماتی میشد که به اشتباه توسط الگوریتم تفسیر میشدند. همهی سیستمهای تشخیص صدا عملکردی مناسب را در آزمایش نشان دادند و همگی نرخی کمتر از ۰/۵ داشتند. در آزمایش مذکور، سیستم اپل بدترین و سیستم مایکروسافت، بهترین امتیازها را دریافت کردند. در همهی آزمایشها، نرخ خطا در صداهای گروه آفریقایی-آمریکایی، بیشتر از نرخ خطا در گروه سفیدپوست بود. درواقع بهصورت کلی نرخ خطای دوبرابری در تشخیص صدای یک نژاد دیده میشد.
نرخ خطای سیستمهای تشخیص صدا در تفسیر صدای مردان از نژاد آفریقایی-آمریکایی بیش از همه بود. مردان و زنان سفیدپوست نرخ خطای میانگین ۰/۲۱ و ۰/۱۷ داشتند، درحالیکه نرخ خطای زنان آفریقایی-آمریکایی برابر با ۰/۳ و برای مردان آن نژاد برابر با ۰/۴۱ بود.
تفاوت در نرخ خطای سیستمهای تشخیص صدا در تفسیر صدا از نژادهای گوناگون چه اهمیتی دارد؟ محققان ادعا میکنند که بسته به کارایی سیستمها، تفاوت در نرخ خطا اهمیت بالایی پیدا میکند. وقتی نرخ خطا از حدی بالاتر برود، اصلاح تبدیل صوت به متن کامپیوتری زمان بیشتری نسبت به نوشتن دستی توسط خود فرد نیاز خواهد داشت. بهعلاوه، با نرخ خطای بالا، گوشی هوشمند شما اکثر فرمانهای صوتی را اشتباه انجام میدهد.
شاید نتایج بالا، به منطقهی جغرافیایی وابسته باشند. از نظر آمریکاییها، شهروندان کالیفرنیا عموما بهعنوان افرادی بدون لهجه شناخته میشوند. نمونههای صوتی آن منطقه، نرخ خطای پایینی داشتند. منطقهی راچستر هم نتایجی نزدیک به کالیفرنیا داشت و نتایج منطقهی کلمبیا، به منطقهی روستایی در کارولینای شمالی نزدیکتر بود. اگر فرض کنیم موقعیت جغرافیایی، در نرخ خطای الگوریتمها تأثیر داشته باشد، باید نمونههای بزرگتری برای آزمایش خطا بهکار گرفته شود.
محققان در مرحلهی بعدی، ساختاربندی زبان را تحلیل کردند. از آنجایی که آنها به الگوریتمهای پایهی پنج سیستم برتر دسترسی نداشتد، از پکیج متنبازی استفاده کردند که کاراییهای مشابه دارد. آنها درک نرمافزار از زبان را با فاکتوری بهنام perplexity بررسی کردند. این فاکتور، قدرت پیشبینی کلمهی بعدی در یک جمله را در سیستم تشخیص صوت بررسی میکند. با بررسی فاکتور مذکور مشخص شد که سیستمها توانایی بهتری در تشخیص ساختاربندی زبان آفریقایی-آمریکاییها دارند. چرا نتایج به اینگونه شکل گرفتند؟
محققان با بررسی دو نوع خروجی تحقیقاتی به این نتیجه رسیدند که دو گرایش نژادی در صحبت کردن وجود دارد. آفریقایی-آمریکاییها نسبت به همشهریهای سفیدپوست خود، از تعداد کلمات کمتری استفاده میکنند. ازطرفی جملهبندی آنها ساختار پیچیدهتری دارد. آنها در بسیاری از موارد، کلمات را از میان جملهها حذف میکنند، اما مخاطب بهراحتی منظورشان را متوجه میشود.
در مجموع یافتههای دانشمندان این سؤال مطرح میشود که سیستمهای تجاری چقدر برای واکنش بهتر به صداهای یک نژاد خاص بهینهسازی شدهاند. محققان برای پیدا کردن پاسخ، نمونههای موجود را جستوجو گردند تا عبارتهای مشابه و برابر بین دو نژاد را پیدا کنند. وقتی این عبارتهای مشابه در سیستمها آزمایش شدند، باز هم نرخ خطای آفریقایی-آمریکاییها بیشتر از سفیدپوستان بود.
سیستمهای تشخص صدا باید فاکتورهای متعددی را در تفسیر صحبت کاربران در نظر بگیرند. تشخیص کلمهها، ساختاربندی جملهها و معنای مورد نظر مخاطب، برخی از فاکتورها هستند. با بررسی تجمیعی همهی فاکتورها میتوان کلمات را بهخوبی پیشبینی کرد. سیستمهای تجاری کنونی ظاهرا در تفسیر کلمات برخی از جوامع با چالش روبهرو هستند. این سیستمها در ذات خود جانبگرا طراحی نشدهاند. ظاهرا زیرمجموعهای از همهی صداهای موجود در ایالات متحده برای آموزش سیستمها استفاده شده است. درنتیجه آنها برای تشخیص برخی صداها، آموزش کافی را ندیدهاند. درنهایت این وظیفه برعهدهی شرکتهای توسعهدهنده خواهد بود تا مجموعهی آموزشی سیستمها را برای درک بهتر گفتار همهی گروههای جامعه، بهینهسازی کنند.
پاسخ ها