شرکت Stability AI از ابزار هوش مصنوعی برای تبدیل متن به صدای پایدار رونمایی کرد

شرکت Stability AI از ابزار هوش مصنوعی تبدیل متن به آهنگ Stable Audio رونمایی کرد

با مدل هوش مصنوعی Stable Studio می‌تواند از طریق متن، آهنگ با مدت زمان‌های مختلف بسازید. نسخه پایه این ابزار رایگان است.

شرکت Stability AI که بیشتر به‌خاطر ابزارهای تبدیل متن به تصویر مبتنی بر هوش مصنوعی شناخته می‌شود، از یک ابزار جدید به نام Stable Audio رونمایی کرده است که متن را به صدا یا آهنگ تبدیل می‌کند.

مدل‌های دیفیوژن می‌توانند کلیپ‌های صوتی با مدت زمان مشخص بسازند که چنین عملکردی مناسب ساخت موسیقی نیست؛ چرا که آهنگ‌ها از نظر زمانی ثابت نیستند. بااین‌حال ابزار جدید Stability AI می‌تواند کلیپ‌های صوتی با مدت زمان‌های مختلف بسازد. این کمپانی برای دستیابی به این هدف، مدل خود را با موسیقی آموزش داده و همچنین به آن متادیتای متن برای زمان شروع و پایان آهنگ اضافه کرده است.

هوش مصنوعی Stable Audio می‌تواند فایل صوتی با مدت زمان‌های متفاوت بسازد

در گذشته ابزارهای مشابه با کلیپ‌های صوتی 30 ثانیه‌ای آموزش می‌دیدند و تنها می‌توانستند فایل‌های 30 ثانیه‌ای از بخش‌های دلخواه آهنگ بسازند. اما ابزار هوش مصنوعی جدید Stability AI به شما اجازه می‌دهد که کنترل بیشتری روی مدت زمان آهنگ داشته باشید.

این شرکت در بیانیه‌اش گفته است که به آموزش این مدل ادامه می‌دهد تا کیفیت خروجی‌اش بهبود یابد:

«Stable Audio نشان‌دهنده تحقیقات پیشرفته تولید صدا توسط آزمایشگاه تحقیقات صوتی مولد Stability AI به نام Harmonai است. ما به بهبود معماری مدل، مجموعه داده‌ها و روش‌های آموزشی خود برای بهبود کیفیت خروجی، کنترل‌پذیری، سرعت ارائه خروجی و مدت زمان خروجی ادامه می‌دهیم.»

به گفته Stability AI، مدل هوش مصنوعی Stable Audio با مجموعه داده‌ای شامل بیش از 800 هزار فایل صوتی آهنگ، افکت‌های صوتی و آلات موسیقی آموزش داده شده است. علاوه‌براین، از متادیتا متن شرکت AudioSparx استفاده شده است. درمجموع با بیش از 19,500 ساعت صدا مدل جدید Stability AI آموزش داده شده است.

این مدل هوش مصنوعی در سه نسخه در اختیار کاربران قرار می‌گیرد: