MusicGen 是如何通過參考旋律生成音樂的?
2023年6月13日,Meta(前身為 Facebook)發(fā)布了生成音樂模型 MusicGen,在音樂和人工智能社區(qū)引起了轟動。
Meta發(fā)布MusicGen
2023年6月13日,Meta(前身為 Facebook)發(fā)布了生成音樂模型 MusicGen,在音樂和人工智能社區(qū)引起了轟動。 該模型不僅在某些方面超越了今年早些時候谷歌推出的MusicLM,而且利用的是授權音樂數(shù)據(jù)進行訓練,并且開源給非商業(yè)用途。現(xiàn)在不僅可以閱讀研究論文[https://arxiv.org/abs/2306.05284]或試聽[https://ai.honu.io/papers/musicgen/],還可以直接從GitHub [https://github.com/facebookresearch/audiocraft] 或在HuggingFace [https://huggingface.co/spaces/facebook/MusicGen]上的在線應用程序中體驗該模型。
除了根據(jù)文本描述生成音頻之外,MusicGen還可以根據(jù)給定的參考旋律生成音樂,這一功能稱為旋律條件限制生成。 這篇文章將演示Meta如何在他們的模型中實現(xiàn)這一有用且令人著迷的功能。在深入研究之前,讓我們首先了解旋律條件限制生成的原理。
音樂效果如何?
雖然在測試中MusicGen并沒有嚴格遵循文本提示的要求,并且創(chuàng)作的音樂與要求的略有不同,但生成的作品仍然準確地反映了所要求的音樂流派。更重要的是,每首作品都展示了自己對主旋律的不同詮釋。雖然結果并不完美,但是該模型的功能令人印象深刻。 自發(fā)布以來,MusicGen一直是HuggingFace上最受歡迎的模型之一。
如何訓練文本到音樂模型
![]()
圖 2:訓練MusicLM或MusicGen等模型時運用的三個文本和音樂例子。
幾乎當前所有的音頻式音樂生成模型在訓練過程中都遵循相同的邏輯,依靠一個附有相應文本描述的大型音樂數(shù)據(jù)庫。 該模型學習文本和聲音之間的關系,并從中得到將給定的文本提示轉換為音樂片段的能力。 在訓練過程中,模型通過將其生成的內(nèi)容與數(shù)據(jù)集的真實音樂曲目進行比較來優(yōu)化迭代,這使得深度學習模型能夠識別其當前生成音樂的優(yōu)劣并不斷提升。
這種方法的局限在于一旦模型針對文本到音樂生成這樣的特定任務進行訓練,它就只能執(zhí)行該任務。 雖然可以試圖讓MusicGen執(zhí)行如音樂續(xù)寫這樣未經(jīng)過明確訓練的任務,但不能每個請求都能完成。 MusicGen不能輕易地把一條旋律變?yōu)椴煌牧髋伞?這就像將土豆扔進烤面包機并期待炸薯條出來一樣。 為了實現(xiàn)各種需求,我們必須訓練一個單獨的模型來實現(xiàn)此功能。
訓練配方的小改進
讓MusicGen能夠根據(jù)文本提示生成旋律變奏存在一些挑戰(zhàn)。主要障礙之一是識別歌曲的“旋律”并以計算機接受的方式表示。這個問題會在之后深入探討。目前,為了理解新的訓練過程,我們先假設對“旋律”的概念達成共識。在這種情況下,調整后的訓練方法可以概述如下:
![]()
圖 3:三個文本-音樂-旋律配對以用于MusicGen旋律條件限制生成。
對于數(shù)據(jù)庫中的每個曲目,第一步是提取其旋律。隨后向模型輸入曲目的文本描述及其相應的旋律,促使模型重新創(chuàng)建原始曲目。這種方法與最初模型的訓練目標不同。MusicLM一類的模型唯一的任務是根據(jù)文本重新創(chuàng)建音頻。
為了理解這樣的訓練方式,讓我們想想人工智能模型在這個訓練過程中學到了什么。本質上,模型學習的是如何根據(jù)文本描述將旋律變成一首完整的音樂。這意味著訓練結束后,我們可以為模型提供旋律,并要求它以任何流派、情緒或樂器創(chuàng)作一首音樂。對于模型來說,這與它在訓練過程中已成功完成無數(shù)次的“半盲”生成任務相同。了解MusicGen旋律條件限制音頻音樂生成技術后,我們?nèi)匀恍枰獞獙_定義“旋律”的挑戰(zhàn)。
什么是“旋律”?
事實上,除非所有樂器同度演奏,否則沒有客觀的方法來確定和提取復調音樂作品的“旋律”。雖然通常會有一種突出的樂器,例如主唱、吉他或小提琴,但這并不一定意味著其他樂器不是“旋律”的一部分。以皇后樂隊的《波西米亞狂想曲》為例,當你想到這首歌時,你可能首先想起弗雷迪·摩克瑞的主唱旋律。 然而,前奏中的鋼琴、中間部分的合唱組以及“So you think you can rock me [...]”之前的電吉他也可以算作旋律之一。
提取歌曲“旋律”的一種方法是將最突出最響亮的旋律視為最主要的旋律。 色譜圖(chromagram)是一種廣泛使用的表示形式,可以直觀地顯示整個曲目中最主要的音符。 下面是兩張色譜圖,一個是完整錄音,一個去除了鼓和貝斯。 在豎軸上,與旋律最相關的音符(B、F#、G)以藍色突出顯示。
兩個色譜圖都準確地描繪了主要旋律音符,而去除了鼓和貝斯的版本提供了更清晰的可視化效果。 Meta的研究也揭示了相同的觀察結果,這促使他們利用音源分離工具(DEMUCS)從曲目中刪除任何干擾的節(jié)奏性元素。 這個過程能提取到具有足夠代表性的“旋律”,然后可以將其輸入到模型中。
至此,我們現(xiàn)在可以將這些流程連接起來,以了解請求MusicGen執(zhí)行旋律條件限制生成時的底層步驟。 以下是工作步驟的圖示:
![]()
圖5:MusicGen如何產(chǎn)生旋律條件限制的音樂輸出。
局限
雖然MusicGen在旋律限制方面做出了有希望的進展,但是該技術仍在開發(fā)完善當中。即使移除了鼓和貝斯,色譜圖也無法完美地呈現(xiàn)曲目的旋律。其中一個限制是色譜圖將所有音符分為12個西方音級,這意味著得到的是兩個音級之間的絕對變化,但并沒有獲取旋律向上或向下的方向。
舉例來說,從C4移動到G4(純五度)之間的旋律音程與從C4移動到 G3(純四度)之間的旋律音程有很大不同。然而在色譜圖中,兩個音程看起來是相同的。八度跳躍時問題會變得更嚴重,因為色譜圖會表明旋律保持在同一音符上。 想象一下色譜圖如何將席琳·迪翁在“My Heart Will Go On”中“Where-ever you are”這句中的八度音階跳躍識別為不變的音高。 這樣的錯誤看看下面 A-ha 的“Take on Me”中合唱的色譜圖即可。
![]()
圖 7:“Take on Me”移除了貝斯和鼓的副歌色譜圖。
另一個挑戰(zhàn)是色譜圖的固有誤差。 色譜圖在捕捉某些歌曲的旋律方面表現(xiàn)良好,但在其他歌曲中卻完全不行。 這種誤差是系統(tǒng)性的而不是隨機的。 與旋律復雜分布在多種樂器上并具有較大音程跳躍的歌曲相比,主旋律明確、音程跳躍少、齊奏為主的歌曲可以通過色譜更好地表示。
此外,生成式人工智能模型本身的局限性也值得注意。 輸出音頻質量表現(xiàn)出與真正音樂的明顯差異,并且在六秒鐘內(nèi)的生成內(nèi)容中保持風格一致仍然有難度。 此外,MusicGen未能忠實地實現(xiàn)文本提示中的更復雜的描述。 旋律條件限制生成需要進一步的技術進步,以達到不僅可以用于娛樂和靈感尋找,還可以直接生成達到最終令人滿意的水平。
未來展望
從作者的角度來看,關于旋律條件限制音樂生成的主要問題之一是提取和表示“旋律”的方式。雖然色譜圖是一種成熟且簡單的信號處理方法,但有許多最新的研究開始利用深度學習來實現(xiàn)此目的�?吹较馦eta這樣的公司從這些研究中汲取靈感將是令人興奮的,其中許多研究都在 Reddy 等人的 72 頁綜述[https://arxiv.org/pdf/2202.01078.pdf](2022)中進行了介紹。
關于模型本身的質量問題,幾個提升方向包括擴大模型規(guī)模、增加訓練數(shù)據(jù)、針對特定任務開發(fā)更有效的算法等可以增強音頻質量和文本的理解能力。2023年1月MusicLM的發(fā)布類似于“GPT-2時刻”。 我們開始見證這些模型的潛力,但各個方面仍需要重大改進。 如果這個類比成立,類似于GPT-3的音樂生成模型發(fā)布將比我們預期的更早。
對音樂人有何影響?
正如生成式音樂人工智能的常見情況一樣,人們擔心它會對音樂創(chuàng)作者的工作和生計產(chǎn)生潛在的負面影響。 在未來,通過編曲來謀生將變得越來越具有挑戰(zhàn)性。 這在廣告歌曲制作等場景中尤其明顯,公司可以毫不費力地以最低的成本為新的廣告活動或個性化廣告生成特征廣告歌曲旋律的多種變體。 毫無疑問,這對依賴此類活動作為重要收入來源的音樂家構成了威脅。 因此,我們呼吁音樂創(chuàng)作者重視提升客觀的音樂品質,而不是主觀人脈,并探索其他收入來源,為未來做好準備。
從積極的一面來看,旋律條件限制音樂生成為增強人類創(chuàng)造力提供了令人難以置信的工具。 如果有人創(chuàng)作出令人難忘的旋律,他們可以快速生成示例來聽聽在各種流派中的效果。 這個過程可以幫助確定理想的流派和風格,使音樂栩栩如生。此外,它還提供了一個機會來重新審視過去音樂作品,探索它們在不同流派風格中改編的潛力。 最后,這項技術降低了沒有經(jīng)過正規(guī)音樂培訓但具有創(chuàng)造能力的個人參與創(chuàng)作的門檻。 現(xiàn)在,任何人都可以創(chuàng)作一首旋律,對著智能手機麥克風哼唱,并與朋友、家人分享他們的精彩編曲,甚至在網(wǎng)絡上擁有粉絲。
人工智能音樂生成對我們社會的影響仍然存在爭議。 然而,旋律條件限制音樂生成這項技術的實際應用增強了專業(yè)和有抱負的創(chuàng)作者的工作方向。 它提供的探索路徑可以為社會增加價值。我們期待在不久的將來見證這一領域的不斷進步。
錄音棚設備解決方案 售前咨詢:13366394396
| 【打印此頁】【返回首頁】 |
