Stable Audio 2.0 來襲
2023年9月發(fā)布的Stable Audio 1.0憑借其根據(jù)文本描述生成簡短音頻的能力而引起了人們的關(guān)注。最新發(fā)布的2.0版本允許用戶以44.1 kHz采樣率生成長達(dá)三分鐘的立體聲完整歌曲,超過了過去1.0版本90秒的限制。除了增加長度之外,Stable Audio 2.0還提供其他功能,包括新的“音頻到音頻”功能,允許用戶上傳已有的音樂或者直接哼唱來影響生成的音樂特征。
2023年9月發(fā)布的Stable Audio 1.0(新聞?wù)垍⒖肌?a target="_blank">深入揭發(fā)音樂人的噩夢 Stable Audio:音樂生成 AI 的商業(yè)技術(shù)背景 + 使用教程》)憑借其根據(jù)文本描述生成簡短音頻的能力而引起了人們的關(guān)注。最新發(fā)布的2.0版本[https://stableaudio.com/user-guide/model-2]允許用戶以44.1 kHz采樣率生成長達(dá)三分鐘的立體聲完整歌曲,超過了過去1.0版本90秒的限制。除了增加長度之外,Stable Audio 2.0還提供其他功能,包括新的“音頻到音頻”功能,允許用戶上傳已有的音樂或者直接哼唱來影響生成的音樂特征。
https://www.youtube.com/watch?v=cljN977HNTI
視頻中展示了Stable Audio可以將用戶輸入音頻和提示詞進(jìn)行結(jié)合,并輸出與兩者都有關(guān)聯(lián)的音樂。輸入音頻可以是哼唱,也可以是簡單的樂器演奏。除此之外,用戶還可以通過Prompt strength來調(diào)節(jié)輸入音頻和提示詞對結(jié)果的影響權(quán)重。在展示視頻中,合成器貝斯被轉(zhuǎn)換為低音吉他,一段哼唱轉(zhuǎn)換成鼓的音高和節(jié)奏,Beatbox變成了嘻哈beat。不過小編簡單嘗試了這個(gè)功能后發(fā)現(xiàn)生成結(jié)果與輸入音頻關(guān)系不太大,服務(wù)器也不太穩(wěn)定。更多關(guān)于音頻到音頻生成的官方音頻示例可訪問:https://stableaudio.com/user-guide/audio-to-audio。Stable Audio 2.0還表示新版本加入了諸如風(fēng)格轉(zhuǎn)換之類的功能,不過在官方指南內(nèi)沒有找到更詳細(xì)的信息,有可能指的就是音頻文本提示詞生成的變體。
![]()
圖2:Diffusion Transformer (DiT)
根據(jù)官網(wǎng)介紹,Stable Audio 2.0的隱含擴(kuò)散(Latent Diffusion)模型架構(gòu)經(jīng)過專門設(shè)計(jì),能夠生成具有連貫結(jié)構(gòu)的完整音軌。為了實(shí)現(xiàn)這一目標(biāo),團(tuán)隊(duì)對系統(tǒng)的所有組件進(jìn)行了調(diào)整,以提高長時(shí)內(nèi)容生成的性能。一種全新的高度壓縮的自動(dòng)編碼器(Auto-Encoder)將原始音頻波形壓縮為更短的表示形式。擴(kuò)散模型采用類似于Stable Diffusion 3中使用的diffusion transformer(DiT)來代替之前的U-Net,因?yàn)樗瞄L處理長序列的數(shù)據(jù)。 這兩個(gè)元素的結(jié)合產(chǎn)生了一個(gè)能夠識別和再現(xiàn)高質(zhì)量音樂作品所必需的大模型結(jié)構(gòu)。
新模型可在 Stable Audio 網(wǎng)站上免費(fèi)使用,并將很快提供Stable Audio 2.0 API。Stability AI還推出了Stable Radio[https://stableaudio.com/live],一個(gè)全天候直播Stable Audio生成曲目的YouTube推流。
Stable Audio 2.0的發(fā)布正值Stability AI內(nèi)部動(dòng)蕩。公司劣跡斑斑的前CEO Emad Mostaque于3月23日被迫辭職。2023年11月,該公司前音頻副總裁Ed Newton-Rex因在訓(xùn)練數(shù)據(jù)集中使用受版權(quán)保護(hù)的材料存在分歧而選擇離職抗議。該起事件詳情請見midifan報(bào)道番外篇“訓(xùn)練數(shù)據(jù)侵權(quán),Stable Audio研發(fā)主管辭職抗議”(參考新聞《風(fēng)格遷移 AI 效果器 Comboulator 發(fā)布,另有一波 Google 和 Adobe 音樂 AI 新品襲來》)。Ed Newton-Rex之后發(fā)起了一項(xiàng)名為Fairly Trained[https://www.fairlytrained.org/],旨在對基于尊重創(chuàng)作者權(quán)利的人工智能模型的評估和認(rèn)證。
Stability AI如今聲稱解決了人工智能開發(fā)的版權(quán)問題,表示:
“Stable Audio 2.0專門在AudioSparx音樂庫[https://www.audiosparx.com/]許可數(shù)據(jù)集上進(jìn)行了訓(xùn)練,尊重選擇退出訓(xùn)練計(jì)劃的音樂家并確保創(chuàng)作者得到公平的補(bǔ)償。”
這個(gè)說法與去年Stable Audio 1.0發(fā)布時(shí)的說辭(參考新聞《深入揭發(fā)音樂人的噩夢 Stable Audio:音樂生成 AI 的商業(yè)技術(shù)背景 + 使用教程》)如出一轍,很難不讓人再對其產(chǎn)生懷疑。
根據(jù)過往資料,模型的訓(xùn)練使用了AudioSparx中超過80萬段音頻,其中包含音樂、音效和單樂器軌道以及相應(yīng)的文本數(shù)據(jù)。Stability AI表示本次2.0版本集成了來自Audible Magic[https://www.audiblemagic.com/]的內(nèi)容識別技術(shù)來掃描用戶上傳的音頻是否侵犯版權(quán),卻并未提到有檢查其訓(xùn)練數(shù)據(jù)的侵權(quán)情況。
雖然 Stability AI拒絕對Ed Newton-Rex的聲明發(fā)表評論,但他們重申:
“Stable Audio模型僅根據(jù)AudioSparx合作伙伴的數(shù)據(jù)進(jìn)行訓(xùn)練。AudioSparx的所有藝術(shù)家都獲得了補(bǔ)償,并且可以選擇退出模型訓(xùn)練計(jì)劃”。關(guān)于Stable Audio等工具的技術(shù)不斷進(jìn)步是否有潛力影響職業(yè)音樂家的生計(jì),Stability AI回應(yīng)稱他們的使命是放大人類的潛力,其中包括藝術(shù)家。“我們的目標(biāo)是利用我們的尖端技術(shù)擴(kuò)展藝術(shù)家的創(chuàng)意工具包,從而提高他們的創(chuàng)造力。”
近幾個(gè)月來,人工智能驅(qū)動(dòng)的生成音樂工具受到批評,因?yàn)樗囆g(shù)家和唱片公司開始質(zhì)疑它們不受控制的發(fā)展未來可能會引導(dǎo)我們走向何方。就在本周,包括Billie Eilish和Stevie Wonder在內(nèi)的200名藝術(shù)家簽署了一封公開信,要求遏制“人工智能的掠奪性使用”。
番外:Billie Eilish、Nicki Minaj、Stevie Wonder等音樂家要求保護(hù)免遭人工智能侵害
由200多名知名音樂家組成的團(tuán)體簽署了一封公開信,呼吁保護(hù)人們免遭模仿人類肖像和聲音的人工智能掠奪性影響。簽名者跨越音樂流派和時(shí)代,包括從Billie Eilish、J Balvin、Nicki Minaj這樣的一線明星到Stevie Wonder和REM等搖滾名人堂成員。弗蘭克·辛納屈 (Frank Sinatra)和鮑勃·馬利 (Bob Marley) 的遺產(chǎn)管理機(jī)構(gòu)也是簽署人。
這封信由藝術(shù)家權(quán)利聯(lián)盟Artist Rights Alliance[https://artistrightsalliance.org]發(fā)出,要求科技公司承諾不開發(fā)破壞或取代人類歌曲作者和藝術(shù)家的人工智能工具。信中指出:
“這種對人類創(chuàng)造力的攻擊必須停止。 我們必須防止人工智能被掠奪性地用來竊取專業(yè)藝術(shù)家的聲音和肖像、侵犯創(chuàng)作者的權(quán)利并破壞音樂生態(tài)系統(tǒng),”
這封信并未呼吁徹底禁止在音樂或制作中使用人工智能,而是表示負(fù)責(zé)任地使用該技術(shù)可能會給該行業(yè)帶來好處。對人工智能被用來寫歌曲和劇本,或者制作演員和藝人的圖像和視頻的擔(dān)憂,是2023年美國娛樂業(yè)工會罷工的核心。就在上周,出于對負(fù)責(zé)任使用的擔(dān)憂,ChatGPT制造商OpenAI推遲了一款可以模仿聲音的程序的發(fā)布。
2024年3月,田納西州成為美國第一個(gè)頒布立法的州,旨在保護(hù)音樂家免于將人工智能生成的相似聲音用于商業(yè)目的�!缎は瘛⒙曇艉蛨D像安全法案》(The Ensuring Likeness, Voice, and Image Security Act,又稱《貓王法案》Elvis Act)將于同年7月1日生效,規(guī)定未經(jīng)藝術(shù)家同意復(fù)制其聲音為違法行為。該立法并未涉及將藝術(shù)家的作品用作訓(xùn)練人工智能模型的數(shù)據(jù),而這種做法已導(dǎo)致針對OpenAI等公司的多起訴訟,信中也提到了這一點(diǎn)。
信中還指出:
“一些最大、最有實(shí)力的公司未經(jīng)許可,使用藝術(shù)家的工作來訓(xùn)練人工智能模型。其直接目的是用大量人工智能創(chuàng)造的‘聲音’和‘圖像’取代人類藝術(shù)家的作品,從而大大稀釋支付給藝術(shù)家的版稅。”
藝術(shù)家權(quán)利聯(lián)盟是一個(gè)由音樂行業(yè)資深人士運(yùn)營的非營利組織,董事會成員包括Johnny Cash的女兒Rosanne Cash。目前還不清楚該組織是如何聯(lián)系到在這封信上簽名的藝術(shù)家的。除前文中提到的署名者,名單還包括Camila Cabello, Katy Perry, Kim Petras, Pearl Jam, Kacey Musgraves, Ayra Starr, Chuck D, Elvis Costello, Imagine Dragons, Jon Bon Jovi, Q-Tip, The Cure’s Robert Smith, Ryan Tedder, Sheryl Crow, Sam Smith, Smokey Robinson, Miranda Lambert, The Last Dinner Part, Chappell Roany等知名藝人。完整名單請?jiān)L問鏈接[https://artistrightsnow.medium.com/200-artists-urge-tech-platforms-stop-devaluing-music-559fb109bbac]。代表已故藝術(shù)家的遺產(chǎn)機(jī)構(gòu)也是這封信的簽署者之一。娛樂行業(yè)內(nèi)關(guān)于藝術(shù)家死后如何使用他們的肖像的爭論越來越多。近年來,已故演員和音樂家的多個(gè)人工智能版本出現(xiàn)在電影、視頻游戲和電視中,引發(fā)了爭議和倫理辯論。
參考鏈接:
| 【打印此頁】【返回首頁】 |
