將 AI 繪圖的技術(shù)應(yīng)用于音樂會(huì)如何?
AI 繪圖 Stable Diffusion 著實(shí)是火了一把,只需要提供所需要的提示詞,它就可以生成近似的圖片。最近,這種技術(shù)也應(yīng)用在了音樂生成領(lǐng)域 — Riffusion 是一款新的 AI 項(xiàng)目,它建立在最近興起的AI繪圖的基礎(chǔ)上,但將其應(yīng)用于聲音。
Stable Diffusion 通過從隨機(jī)噪點(diǎn)開始,并將隨機(jī)圖像與與提示詞匹配的圖像索引進(jìn)行比較來(lái)實(shí)現(xiàn)圖片的生成。應(yīng)用程序選擇其索引中與提示詞匹配或接近的圖像質(zhì)量最接近的圖像,然后重復(fù)此過程。每次迭代時(shí),圖像的質(zhì)量越來(lái)越接近具有所需標(biāo)簽或文本提示的圖像。
Riffusion的工作方式是首先構(gòu)建一個(gè)索引的頻譜圖集合,每個(gè)頻譜圖都標(biāo)有代表頻譜圖中捕獲的音樂風(fēng)格的關(guān)鍵字。一旦在此頻譜圖主體上進(jìn)行訓(xùn)練,該模型就可以使用與 Stable Diffusion 相同的方法,干預(yù)噪聲以獲得與文本提示匹配的聲波圖具有相似質(zhì)量的聲波圖像。
如果你的需求是 “搖擺小號(hào)爵士”,它將生成一個(gè)類似于與提示詞相匹配的聲波圖。然后,應(yīng)用程序?qū)⒊暡▓D轉(zhuǎn)換為音頻,這樣你就可以聽到結(jié)果。
目前 Riffusion 得出的結(jié)果還很粗糙,但它確實(shí)證實(shí)了該過程確實(shí)能夠產(chǎn)生與文本提示匹配的原始音頻。目前該技術(shù)主要受限于聲波圖樣本的數(shù)量較小,而用于圖像的 Stable Diffusion 可是使用了 2.3 億個(gè)圖像進(jìn)行訓(xùn)練。不只是數(shù)量,Riffusion 還會(huì)受到頻譜圖分辨率的限制,頻譜圖只能產(chǎn)生比較低保真的音頻質(zhì)量。
目前來(lái)看,該技術(shù)還無(wú)法在不久的將來(lái)使用人工智能產(chǎn)生任何傳統(tǒng)音樂,因?yàn)檫@個(gè)過程沒有考慮形式。音樂是聲音的想法,可以及時(shí)組織以創(chuàng)造出的藝術(shù)結(jié)果。
不過,這種方法顯示了 AI 的潛力。目前,它的任務(wù)是生成令人不安的樣本素材 — 類似于 AI 圖像生成的方式,即使在 6 個(gè)月前,也僅限于生成令人毛骨悚然的圖像。這表明,憑借更大的數(shù)量和更高分辨率的頻譜圖,人工智能音頻生成可能會(huì)在明年實(shí)現(xiàn)類似的質(zhì)量飛躍。
剛興趣的朋友可以去官網(wǎng)聽聽它生成的樣本:https://www.riffusion.com/
錄音棚設(shè)備解決方案 售前咨詢:13366394396 ![]()
| 【打印此頁(yè)】【返回首頁(yè)】 |
