AI音樂創造趨勢:Stability AI推出免版稅音效生成模型

Featured Image
Stability AI是AI藝術生成器Stable Diffusion背後的初創公司,他們發布了一個開放的AI模型,用於生成聲音和歌曲,聲稱這個模型僅使用免版稅的錄音進行了訓練。稱為Stable Audio Open的生成模型接受文本描述(例如“在一個經過處理的工作室中演奏的搖滾節拍,以及在一個原聲套件上的會話鼓擊”),並生成長達47秒的錄音。該模型使用了來自免費音樂庫FreeSound和Free Music Archive的約486,000個樣本進行訓練。Stability AI表示,該模型可用於創建鼓擊節拍、樂器旋律、環境噪音以及視頻、電影和電視節目的“製作元素”,還可以“編輯”現有歌曲或將一首歌曲(例如柔和的爵士樂)的風格應用於另一首歌曲中。“這個開源版本的一個關鍵優點是用戶可以根據自己的自定義音頻數據對模型進行微調,”Stability AI在其公司的一篇文章中寫道。“例如,鼓手可以在自己的鼓樂錄音樣本上進行微調,以生成新的節拍。”然而,Stable Audio Open有其局限性。它無法生成完整的歌曲、旋律或人聲,至少不能生成好的音頻。Stability AI表示,它並未對此進行優化,並建議需要這些功能的用戶選擇該公司的高級產品Stable Audio。此外,Stable Audio Open不能用於商業用途,其服務條款禁止這樣使用。而且,它在不同的音樂風格和文化以及非英語描述上的表現並不一致,這些偏見Stability AI歸咎於訓練數據。“數據的來源可能缺乏多樣性,所有的文化在數據集中並沒有平等地得到代表,”Stability AI在模型的描述中寫道。

優化後的文章如下:

Stability AI是Stable Diffusion AI藝術生成器背後的初創公司,最近推出了一個開放的AI模型,用於生成聲音和歌曲。該模型聲稱只使用免版稅錄音進行了訓練。稱為Stable Audio Open的生成模型可以根據文本描述生成長達47秒的錄音。該模型使用了來自FreeSound和Free Music Archive兩個免費音樂庫的約486,000個樣本進行訓練。Stability AI表示,該模型可用於生成鼓擊節拍、樂器旋律、環境噪音以及視頻、電影和電視節目的“製作元素”。此外,它還可以“編輯”現有歌曲,或者將一首歌曲的風格應用於另一首歌曲。Stability AI在一篇文章中提到,這個開源版本的一個重要優點是用戶可以根據自己的自定義音頻數據對模型進行微調。例如,鼓手可以使用自己的鼓錄音樣本對模型進行微調,以生成新的節拍。

然而,Stable Audio Open也有一些局限性。它無法生成完整的歌曲、旋律或人聲,至少無法生成高質量的音樂。Stability AI表示,該模型並未針對這些功能進行優化,建議需要這些功能的用戶選擇公司的高級產品Stable Audio。此外,Stable Audio Open不能用於商業用途,其服務條款明確禁止這樣使用。此外,該模型在不同的音樂風格、文化以及非英語描述上的表現並不一致,這些偏見是由於訓練數據的不足所導致的。Stability AI在模型的描述中寫道:“數據的來源可能缺乏多樣性,並且無法平等地代表所有的文化。”

Stability AI一直努力改善其不景氣的業務,最近成為爭議的焦點。公司的生成音頻副總裁Ed因與公司關於在受版權保護的作品上訓練生成AI模型是否構成“合理使用”的立場不一致而辭職。Stable Audio Open似乎是試圖轉變這一情況的一種方式,同時也不太含蓄地宣傳Stability AI的付費產品。隨著Stability等音樂生成器的流行,版權問題以及某些生成器創作者可能濫用版權的方式成為焦點。今年5月,代表比利·喬爾、Doja Cat和Lil Nas X等藝術家的Sony Music向700家AI公司發出警告,禁止“未經授權使用”其內容訓練音頻生成器。今年3月,美國田納西州簽署了第一部旨在遏制音樂中濫用AI的法律。

【申請TechCrunch活動,贏取$100,000並在2024年舉行的旧金山Disrupt展示】

Share this content: