شرکت Stability AI، سازنده مدل معروف Stable Diffusion، نسل جدیدی از مدلهای صوتی خود را با نام Stable Audio 3.0 معرفی کرد. این خانواده جدید از مدلهای هوش مصنوعی، آهنگهای باکیفیت با حداکثر زمان ۶ دقیقه و ۲۰ ثانیه تولید کند.
مدلهای Stable Audio 3.0
خانواده Stable Audio 3.0 شامل چهار مدل مختلف است؛ مدلهای کوچک و مخصوص جلوههای صوتی (SFX) که هرکدام ۴۵۹ میلیون پارامتر دارند، مدل متوسط با ۱.۴ میلیارد پارامتر و مدل بزرگ با ۲.۷ میلیارد پارامتر. طبق اعلام این شرکت، مدلهای کوچک برای تولید صدا و موسیقی روی دستگاه تا سقف ۲ دقیقه بهینه شدهاند.
دو مدل متوسط و بزرگ این خانواده میتوانند قطعات موسیقی کاملی تولید کنند که ساختار موسیقایی و لحن ملودیک خود را در طول بیش از ۶ دقیقه حفظ میکنند. این دستاورد، پیشرفتی بزرگ نسبت به نسخه Stable Audio 2.0 محسوب میشود که سال گذشته عرضه شد و آهنگهای به مراتب کوتاهتری تولید میکرد.

Stability AI اعلام کرده که مدلهای کوچک و متوسط را بهصورت متنباز منتشر میکند تا کاربران بتوانند از آنها استفاده یا تغییراتی در آنها ایجاد کنند. در مقابل، مدل بزرگ تنها از طریق API و سرویسهای میزبانی ابری پولی در دسترس خواهد بود. همچنین شرکتهایی با درآمد سالانه بیش از یک میلیون دلار، برای استفاده از این فناوری ملزم به دریافت مجوز سازمانی هستند.
با توجه به چالشهای حقوقی شرکتهایی نظیر Suno و Udio در زمینه حق کپیرایت، Stability AI تأکید کرده است که مدلهای جدید خود را بر پایه دادههایی با مجوز کامل آموزش داده است. این شرکت سال گذشته قراردادهایی را با غولهای موسیقی جهان یعنی Warner Music Group و Universal Music Group امضا کرده بود.
همچنین، این استارتاپ قصد دارد محصولات ویژهای برای موزیسینهای حرفهای توسعه دهد. در همین راستا، «ایتن کپلن»، مدیر ارشد دیجیتال سابق در شرکتهای Universal Audio و Fender، به تیم Stability پیوسته است تا هدایت بخش موسیقی حرفهای این شرکت را برعهده بگیرد.
نظرات کاربران