fbpx

免費用 EaseUS Vocal Remover 讓 AI 幫你將歌曲去除人聲分離歌聲與音樂

今天來介紹一個線上的 AI 人聲分離工具,早期如果想要自己練歌唱唱,就需要花錢去 KTV 或卡啦 OK 這樣的場所,如果想要在家自己練練歌也不容易取得只有伴唱的音樂檔案。

早期其實有很多可以去除人聲的工具,但多數都是利用左右聲道的數據進行計算,能實現的效果有限。現在 AI 發展非常的迅速,針對聲音的處理也有很多成熟的產品,隨著 Web 技術的普及,透過雲端技術線上即時處理聲音的過程已經非常絲滑。這陣子接觸了一些線上 AI 人聲去除服務,順便介紹一下 EaseUS Vocal Remover 這個雲端服務。

音訊分離的實現原理是什麼?

當前資訊科技已經發展出許多先進的方法來分離歌曲中的人聲與配樂,這個技術可以統稱為音訊源分離 (Audio Source Separation),其中針對「主唱與背景音樂分離」的應用稱為 Vocal Separation 或 Music Demixing。以下是技術原理與常用方法:

早期頻譜分析與訊號處理方法

利用 短時傅立葉轉換(STFT) 把聲音從時域轉換成頻域。根據人聲與樂器在頻譜中的特徵(例如人聲主要集中在中頻段),使用濾波器嘗試去除非人聲頻段。

常見方法:Singing Voice Detection, Harmonic/Percussive Source Separation (HPSS)

缺點:容易造成聲音失真,無法精準分離。

AI 機器學習(ML)與深度學習(DL)方法

深度學習已成為目前最主流、最有效的方式。像是利用 U-Net, Wave-U-Net, Open-Unmix, Spleeter 等等開源的工具,可快速將音樂分離為 2、4 或 5 個音軌(如:人聲、鼓、貝斯、其他樂器)。

免費線上去除人聲工具教學

這個軟體可以直接透過瀏覽器線上使用,點擊使用 EaseUS Vocal Remover 線上去聲器就可以連到下面的網站,實際操作可以不用註冊就直接測試效果。但是建議先註冊可以保留操作的專案,註冊的過程也很方便可以支援 Google, Faceboo, Twitter SSO 一鍵註冊與登入,畫面如下:

Vocal Remove 註冊

同時這個軟體也支援「繁體中文」語言,可以在左下角快速切換使用者介面的顯示語系,此外也支援 iOS 與 Android 手機 App 進行使用,如下:

music-vocal-remover-language

這裡我們有一首也是自行透過 AI 創作的「天青色等煙雨 而我在等你」作為測試歌曲,這裡可以先聽看看:

然後點擊選擇檔案上傳電腦中的音樂檔案,我們直接將這一個 mp3 上傳到「線上去聲器」,上傳以後就會在雲端背景進行運算,上傳介面如下:

線上人聲去除

上傳以後就可以看到已經分離出兩個音軌,可以直接按下「Play」按鍵進行播放,播放的過程隨時可以調整音軌的音量或者直接靜音,畫面如下:

music-vocal-remover

分離 MP3 的人聲與樂器進行匯出

透過上述的計算以後,就可以直接分離匯出每一個音軌。只需要點選右上角的「匯出」按鈕,如下:

匯出mp3人聲與樂器

這時候我們就會下載得到兩個檔案 (這裡我選擇 MP3 格式),分別是已經分離好的「前景人聲」與「背景音樂」,經過 AI 自動處理好的結果如下:

MP3歌曲前景人聲分離

MP3歌曲背景音樂分離

仔細聽了一下,AI 處理分離人聲的效果比預想的好很多,包含過場音樂的「嗚阿喔」都有正確被分離,聽起來不像傳統的軟體會有很多雜音,無論是人聲與音樂的音軌聽起來都很乾淨,如果需要作為後製會是很好的素材來源。

直接透過 Youtube 網址分離人聲與配樂

另外還有一個很方便的功能,直接輸入 Youtube 網址,就可以直接進行處理。整個過程完全透過瀏覽器處理,不需要下載檔案即可完成音訊的處理。如下:

youtube 人聲去除

本來以為影片處理會比較久,測試起來發現速度也是很快。

線上 youtube 分離人聲

試聽「周杰倫 - 青花瓷」這首歌的分離效果,聽了人聲音軌感覺非常厲害,多了很多平常可能被樂器蓋過的人聲細節。對於樂器音軌也是有不錯的表現,非常乾淨可以直接當成卡啦OK伴唱帶來唱。

EaseUS Vocal Remover 附加的混音工具

除了去除人聲以外,針對已經處理好的音軌還可以進行「升降 Key」與「BPM 速度」的調整,最後還可以將調整後的音樂進行匯出下載。功能如下:

分離人聲與升降Key

此外還有一個「增強處理」的功能,可以透過 AI 針對人聲或樂器進行調整,如下:

人聲與樂器增強

更高階實現人聲與樂器種類分離

EaseUS Vocal Remover 左邊選單還有一個功能,可以直接更西部的分離歌曲中的元素,今天先選擇一首中編制的曲目來測試,我們直接使用 Youtube 好樂團的「他們說我是沒有用的年輕人」來測試,這首曲目屬於獨立搖滾樂曲,自己聽到的樂器有「人聲、爵士鼓、木吉他、鋼琴、Bass、電吉他、電子音效」這幾種樂器,實際上分離以後的效果如下:

大編制音色分離

其中大多數的樂器是有成功分離的,可見 AI 對於音色的判斷還是有一定的能力。針對鼓與弦樂的處理效果很好,Bass 與人聲的分離也不錯。

接下來說說對於 AI 比較困難的部份:

  • 鋼琴與木吉他合奏的混淆,本身兩種樂器都是木材共鳴,音色本來就很像,也可以理解無法很準確歸類的原因
  • 吉他與木吉他合併,有可能是因為兩種樂器沒有一開始就進入曲目的編制,造成 AI 無法準確判定音色的數量

其實這首歌本來就是比較難處理的曲目,甚至等級不夠高的音響也很難透過人耳識別。

音色分類未來的技術挑戰與限制

目前市面上的技術如果遇到比較極端的情況,還是存在一定的不完美,像是不同樂器與人聲頻率可能重疊,難以完全乾淨分離、壓縮格式(如 MP3)會造成資料損失,影響模型效果、混音技術(如加上混響、壓縮)會增加分離困難度、分離後仍可能有殘留雜訊、音質變差等問題,但是未來隨著 AI 與 GPU 的加速實現,這些問題都有望被解決的更好。從 EaseUS Vocal Remover 這樣的產品就可以看到 AI 應用在聲音處理的進步,已經可以快速落地使用,有分離人聲需求的使用者可以試用看看。