ElevenLabs ابزار هوش مصنوعی خیره‌کننده‌ای برای اضافه‌کردن صدا به ویدیوها منتشر کرد

این ابزار به سازندگان اجازه می‌دهد تا برای ویدیوهای خود جلوه‌های صوتی و صدا تولید کنند.

استارتاپ هوش مصنوعی ElevenLabs چند هفته پس از راه‌اندازی مدل تبدیل متن به صدای Sound Effects، ابزاری متن‌باز را نیز در اختیار کاربران قرار داد و پتانسیل‌های آن را نمایش داد. این ابزار هوش مصنوعی تولید صدا به سازندگان اجازه می‌دهد برای ویدیوهای خودشان جلوه‌های صوتی ایجاد کنند.

هوش مصنوعی تولید صدا ElevenLabs

طبق گزارش‌های موجود، ویدیو جدیدی را که برای استفاده از این ابزار آپلود می‌کنید، چهار فریم در فواصل زمانی یک‌ثانیه‌ای ارائه می‌شود. سپس این فریم‌ها همراه پرامپت به مدل GPT-4o فرستاده می‌شوند تا پرامپت جدیدی گرفته شود. به کمک API Sound Effects از این پرامپت برای تولید افکت صوتی از متن استفاده می‌شود.

درنهایت صدای تولیدشده با ویدیوی کاربر ترکیب می‌شود تا فایل آن برای دانلود ارائه شود. همچنین باید به این موضوع اشاره کرد که درحال‌حاضر فقط یک ویدیوی 22 ثانیه‌ای می‌توان با این ابزار ساخت.

استفاده از این ابزار بسیار ساده است. فقط باید ویدیو بدون صدا را در آن آپلود کنید تا هوش مصنوعی ElevenLabs چهار گزینه با صدا به شما ارائه کند. می‌توان انتظار داشت این هوش مصنوعی در آینده به سیستم‌های بزرگ‌تری اضافه شود تا تولیدکنندگان بتوانند از مزایای سیستم تولید صدای آن بهره ببرند.

«عمار ریشی»، مدیر بخش طراحی ElevenLabs، می‌گوید:

«سازندگان ویدیوهای هوش مصنوعی اغلب به‌دنبال جلوه‌های صوتی عالی هستند و ما احساس می‌کنیم با درک فریم ویدیوهای آن‌ها و پیشنهاد بهترین خروجی می‌توانیم به روند کار آن‌ها سرعت ببخشیم.»

همچنین ویدیویی را به اشتراک گذاشته که برای ساخت آن، از فناوری‌های ElevenLabs در کنار Luma AI و Hedra کمک گرفته شده است.

توسعه‌دهندگان می‌توانند به کد این ابزار در GitHub دسترسی داشته باشند. البته ElevenLabs وب‌سایت جدیدی هم راه‌اندازی کرده تا بتوانید Sound Effects API را امتحان کنید.