سخنگوی گوگل گفته است که این شرکت تدابیر فنی و قانونی را برای جلوگیری از چنین استفادههای غیرمجازی اتخاذ میکند.
به گزارش نیویورک تایمز، OpenAI با استفاده از مدل صوتی Whisper خود، بیش از یک میلیون ساعت از ویدیوهای یوتوب را برای آموزش GPT-4، پیشرفتهترین مدل زبانی بزرگ خود، رونویسی کرده است. این شرکت میداند که از نظر قانونی استفاده از چنین دادههایی بحثبرانگیز است، اما ظاهراً اعتقاد دارد استفاده از این دادهها را باید منصفانه تلقی کرد.
شرکتهای هوش مصنوعی برای توسعه هرچه بیشتر مدلهای پیشرفته خود، به دادههای بیشتری نیاز دارند و حالا بهنظر میرسد که این شرکتها در یافتن دادههای آموزشی باکیفیت با مشکل مواجه شدهاند. براساس گزارش نیویورک تایمز، در چنین مواقعی، جای تعجب نیست که این شرکتها بهسمت استفاده از دادههایی بروند که در ناحیه خاکستری و مبهم قانون کپیرایت هوش مصنوعی قرار دارند. ویدیوهای یوتوب نیز ظاهراً برای OpenAI چنین وضعیتی دارد.
پیشازاین «نیل موهان»، مدیرعامل یوتوب، درباره احتمال استفاده OpenAI از یوتوب برای آموزش هوش مصنوعی تولید ویدیوی Sora صحبت کرده بود. سخنگوی گوگل گفته بود که این شرکت تدابیر فنی و قانونی را برای جلوگیری از چنین استفادههای غیرمجازی اتخاذ میکند.
به گفته سخنگوی OpenAI، این شرکت مجموعه دادههای منحصربهفردی را برای هریک از مدلهای خود درنظر میگیرد تا به درک آنها از جهان کمک کند. او افزود که این شرکت از منابع متعددی ازجمله دادههای در دسترس عموم و دادههای غیرعمومی استفاده میکند.
اما از سویی، گزارشها حاکی از آن است که OpenAI منابع دادههای آموزشی مجاز و قابل استفاده را در سال 2021 به پایان رسانده و حالا پس از بررسی منابع دیگر بهسمت رونویسی ویدیوها، پادکستها و کتابهای صوتی یوتوب آمده است. تا آن زمان، این شرکت مدلهای خود را با دادههایی مثل کدهای گیتهاب و محتواهای تحصیلی Quizlet آموزش داده بود.
سخنگوی گوگل دراینباره گفته این شرکت گزارشهای تأییدنشدهای از فعالیت OpenAI را دیده است. به گفته او، هم فایلهای robots.txt و هم شرایط خدمات گوگل، حذف یا دانلود غیرمجاز محتوای یوتوب را ممنوع کرده است.
پاسخ ها