محصول «راوی» از فیدیبو یک گام از کتاب صوتی هم فراتر رفته و قرار است با کمک هوش مصنوعی تمام کتابها را برای ما بخواند.
شلوغی زندگی روزمره امکان مطالعه کتاب را از بسیاری از افراد گرفته است، اما در این میان، کتابهای صوتی نور امیدی برای بازگشت کتاب به زندگی پرمشغله امروزی هستند. محصول «راوی» از فیدیبو یک گام از کتاب صوتی فراتر رفته و قرار است با کمک هوش مصنوعی، تمام کتابها را برای کاربران بخواند. مدیر پروژه راوی این محصول را از هر دو جنبه کمی و کیفی روبهتوسعه دانست و اعلام کرد که بحث و دغدغه اصلی آنها افزایش کیفیت تلفظها و گسترش دایره لغات سیستم است.
«مهرزاد کریمی»، مدیر پروژه راوی، درباره دلیل شکلگیری این محصول و ریسک قیاس ناخودآگاه کیفیت آن با کتاب صوتی در ذهن مخاطب به دیجیاتو گفت: «در ابتدا باید به این نکته مهم اشاره کنم که راوی بخشی از یک سیستم بزرگتر تولید کتاب صوتی است. از ابتدای مسیر، ما صرفاً بهدنبال توسعه یک سیستم متن به صوت نبودیم و با توجه به گرهخوردن تکنولوژی به زندگی اقشار مختلف جامعه و استقبال آشکار و چشمگیر از محتوای صوتی در حوزه کتاب، تصمیم به توسعه این ویژگی گرفتیم. ریسک آشکار مسئله هم مقایسه ناخودآگاه آن با گویندگان صوتی حرفهای بود.»
کریمی در پاسخ به این سؤال که راوی دقیقاً چیست و قرار است چهکار کند؟ گفت: «راوی یکی از اجزای سیستم بزرگتر تولید محتوای صوتی است که با استفاده از هوش مصنوعی توسعه داده شده. وظیفه یا هدف اصلی این زیرسیستم، تبدیل محتوای متنی به صوتی است که کنترلپذیری و توانایی تغییر ویژگیهای صوت تولیدی از هدفهای مهم و فرعی آن به شمار میرود. بهطور کلی و کمی فنیتر، راوی را میتوانیم در دسته مدلهای مولد یا Generative در ادبیات هوش مصنوعی قرار دیم.»
به باور او، راوی به کاربران اجازه خواهد داد که در کمترین زمان ممکن، از محتوای صوتی بهجای متنی استفاده کنند. کریمی از امکان تعامل با این سیستم خبر داد؛ آنهم بهنحوی که امکان پیداکردن لحن موردعلاقه افراد وجود داشته باشد. او دراینباره گفت: «با اضافهشدن ویژگیها در طول زمان، کاربران بستر تعامل با سیستم را پیدا خواهند کرد؛ بهصورتیکه میتوانند محتوای صوتی موردنظر را با ویژگیهای موردنظرشان گوش کنند (برای مثال، با صدای گوینده یا لحن موردعلاقه خودشان) که این بستر تعاملی مهمترین تفاوت با کتاب صوتی تولیدشده توسط گوینده انسان است.»
سالهاست که فراهمکردن دسترسی عادی به محتویات فرهنگی و درسی برای افراد نابینا و کمبینا به دغدغهای برای جامعه تبدیل شده است. کریمی دراینباره گفت: «کاربران نابینا یا کمبینا، در لایه اول، مهمترین کاربران این ویژگی شناخته میشوند و مسلماً توسعه یکسری ویژگیها مانند توانایی جابهجایی بین متن و صوت و… برای این دسته از کاربران با وسواس بیشتری پیگیری خواهد شد.»
او در ادامه افزود: «درحالحاضر تمامی علاقهمندان به محتوای کتاب صوتی یا audiobookها میتوانند از این ویژگی بهرهمند شوند. البته با پیشرفت این سیستم در طول زمان و اضافهشدن ویژگیهای متنوعتر، طیف وسیعتری از مخاطبین جذب خواهند شد.»
مدیر پروژه راوی درباره تصمیمهای گوناگون برای نحوه رونمایی این محصول توضیحاتی داد: «برای رونمایی از راوی دو نوع رویکرد وجود داشت. رویکرد اول چیزی شبیه به مترجم گوگل بود؛ اینکه این ابزار را برای محتوایی سبکتر و محدودتر و با تعداد محدودی کاراکتر متنی برای کاربران فعال کنیم و در طول زمان با یادگیری بیشتر و جمعآوری بازخوردها، آن را به محتواهای بزرگتر و پیشرفتهتر مثل متن کتاب گره بزنیم.»
او معتقد است که رویکرد اول ریسک کمتری داشت و با این روش، زمان بیشتری برای توسعه سیستم مدنظر صرف میشد، اما تصمیمگیرندگان پروژه راوی رویکرد دوم را انتخاب کردند: «رویکرد دوم چیزی شبیه به ChatGPT بود؛ رویکردی تهاجمی یا eager که براساس آن، نسخه یک محصول را بهطور کامل در اختیار کاربر قرار میهیم. این رویکرد ریسک بیشتری دارد و باعث میشود که کاربران با تمامی نقاط ضعف و قوت ورژن کنونی آشنا شوند.»
او افزود: «ما با 159 کتاب که نسخه صوتی آن وجود نداشت، شروع کردیم و تمام محتوای آن را در اختیار کاربر قرار دادیم تا با تمامی ویژگیهای این ورژن در مقیاس بزرگ و تنوع بالا آشنا شود.»
مدیر پروژه راوی از افزایش کمی و کیفی این محصول در طول زمان خبر داد و گفت: «با توجه به اینکه تجربه چنین ویژگی در حوزه کتاب و در داخل وجود نداشت و نمونههای خارجی نیز با احتیاط زیادی در حوزه کتاب وارد شدهاند، تصمیم گرفتیم ویژگیها را پس از جمعآوری بازخورد کاربران بهصورت دورهای اضافه کنیم و تعداد کتابها را همراه با بهبود کیفیت و اعمال بازخورد کاربران افزایش دهیم.»
او باور دارد که حجم کار در این مقیاس و این تنوع از نظر فنی یک چالش بزرگ و فرایندی زمانبر است که این موضوع هم بهمرور بهبود خواهد یافت.
به باور کریمی، از ابتدا هدفگذاری آنها بلندپروازانه و ایدهآلگرایانه بوده است. او درباره چشمانداز آینده این محصول گفت: «هدف اصلی ما تولید کتاب صوتی همراه با دخالتدادن سلیقه کاربر در این فرایند است. تنوع زبان، لحن، گوینده، موسیقی زمینه، اعمال بازخورد همزمان کاربر و… همه و همه ازجمله ویژگیهایی است که به آن فکر کرده و در سیستم درنظر گرفتهایم که در نسخههای آتی اضافه خواهند شد.»
او در ادامه افزود: «بحث و دغدغه اصلی ما افزایش کیفیت تلفظها و گسترش دایره لغات سیستم بوده و خواهد بود که اصلیترین چالش در تولید محتوا در این مقیاس و با این تنوع است. ویژگیهایی که به آن اشاره شد، طراحی شدهاند و بهمرور در اختیار کاربران قرار خواهند گرفت؛ از این بابت اطمینان کامل داشته باشید.»
درنهایت مدیر پروژه راوی در پاسخ به این سؤال که آیا در ادامه به این محصول کاربردهای دیگر مانند امکان خلاصهسازی و ترجمه هم اضافه میشود یا خیر، گفت: «قطعاً با کمک مخاطبان بینظیر فیدیبو، پیشرفتهای حالحاضر تکنولوژی و شور و علاقه ما برای گسترش و پیشرفت فرهنگ کتابخوانی، همه اینها ممکن خواهد بود. فکر میکنم مهمترین فاکتور، ارائه نظرات، پیشنهادها و انتقادات به هر صورتی و در هر مقیاسی از سوی همه مخاطبان است.»
پاسخ ها