如何使用深度學(xué)習(xí)重建高分辨率音頻？

voidking 發(fā)布于2019-04-25 18:14 / 2138人閱讀

摘要：音頻超分辨率旨在重建一個(gè)以較低分辨率波形作為輸入的高分辨率音頻波形。由于受到深度學(xué)習(xí)成功應(yīng)用于圖像超分辨率的啟發(fā)，我最近致力于使用深層神經(jīng)網(wǎng)絡(luò)來完成原始音頻波形的上采樣。上采樣塊使用子像素卷積，其沿著一個(gè)維度重新排列信息以擴(kuò)展其他維度。

音頻超分辨率旨在重建一個(gè)以較低分辨率波形作為輸入的高分辨率音頻波形。在諸如流式音頻和音頻恢復(fù)之類的領(lǐng)域中，這種類型的上采樣存在著若干種潛在應(yīng)用。一個(gè)傳統(tǒng)的解決方案是使用音頻剪輯的數(shù)據(jù)庫，憑借相似性指標(biāo)來填充下采樣波形中的缺失頻率（見本文和本文）。由于受到深度學(xué)習(xí)成功應(yīng)用于圖像超分辨率的啟發(fā)，我最近致力于使用深層神經(jīng)網(wǎng)絡(luò)來完成原始音頻波形的上采樣。在制定了幾種方法之后，我把注意力主要集中于實(shí)施和自定義最近將發(fā)表于2017年國際學(xué)習(xí)代表會(huì)議（ICLR）上的研究論文。

雖然音頻上采樣在大量的領(lǐng)域中都可能是有用的，但我只專注于潛在的IP語音應(yīng)用程序。我為這個(gè)項(xiàng)目選擇的數(shù)據(jù)集是一個(gè)TED演講的集合，大小大約為35 GB。每個(gè)講話都位于一個(gè)多帶帶的文件中，比特率為16千比特每秒（kbps），這被認(rèn)為是高質(zhì)量的語音音頻。這個(gè)數(shù)據(jù)集主要包含一些非常精彩的英語演講，而這是從大量演講者在面對(duì)不同觀眾的演講中挑選出來的。這些TED演講的質(zhì)量與人們?cè)贗P語音對(duì)話期間所期望的值近似。

預(yù)處理步驟如上圖所示。每個(gè)文件的第一個(gè)和最后30秒被修剪以便刪除TED演講的開始和結(jié)束部分。然后將文件拆分為2秒的剪輯，并以4 kbps的速率創(chuàng)建一個(gè)獨(dú)立的，4x下采樣的剪輯集合以及一組原始速率為16 kbps的集合。60％的數(shù)據(jù)集用于訓(xùn)練，20％用于驗(yàn)證，20％用于測(cè)試。

上圖中列出的訓(xùn)練工作流程使用數(shù)據(jù)預(yù)處理步驟中的下采樣片段，并將其批量饋入模型（深層神經(jīng)網(wǎng)絡(luò)）以更新其權(quán)重。具有較低驗(yàn)證分?jǐn)?shù)的模型（表示為“較佳模型”）被保存以供接下來使用。

在上圖中給出了使用“較佳模型”對(duì)音頻文件進(jìn)行上采樣的過程。該工作流采用整個(gè)音頻文件，與預(yù)處理步驟類似地將其拼接到剪輯中，將它們依次饋送到經(jīng)過訓(xùn)練后的模型中，將高分辨率剪輯縫合在一起，并將高分辨率文件保存到磁盤中。

模型架構(gòu)

我所實(shí)現(xiàn)的模型架構(gòu)是U-Net，它使用的是子像素卷積的一維模擬而不是反卷積層。我使用Tensorflow的Python API構(gòu)建和訓(xùn)練模型，同時(shí)使用Tensorflow的C ++ API實(shí)現(xiàn)子像素卷積層。該模型的工作原理如下：

下采樣波形通過八個(gè)下采樣塊發(fā)送，每個(gè)采樣塊都由步幅為2的卷積層組成。在每個(gè)層上，濾波器組的數(shù)量加倍，使得沿著波形的維度減小了一半，濾波器組的尺寸增加了兩個(gè)。

該瓶頸層被構(gòu)造成與下采樣塊相同，這個(gè)下采樣塊與8個(gè)上采樣塊相連，而這些塊與下行采樣塊是有殘留連接的。這些殘留連接允許共享從低分辨率波形學(xué)習(xí)到的特征。

上采樣塊使用子像素卷積，其沿著一個(gè)維度重新排列信息以擴(kuò)展其他維度。

在原始輸入中添加了具有重新排列和重新排序操作的最終卷積層，以便產(chǎn)生上采樣波形。

所使用的損耗函數(shù)是輸出波形與原始高分辨率波形之間的均方差。

性能

上圖顯示了在10個(gè)訓(xùn)練時(shí)期之后，測(cè)試樣本的兩項(xiàng)性能指標(biāo)。左列是頻率與時(shí)間的頻譜圖，右邊是波形振幅對(duì)時(shí)間的曲線。

第一行包含原始高分辨率音頻樣本的頻譜圖和波形圖。

中間行包含原始音頻樣本的4x下采樣版本的相似圖。請(qǐng)注意，下采樣頻率圖中缺少3/4的較高頻率。

最后一行包含訓(xùn)練模型輸出的語譜圖和波形圖。

插入值是兩個(gè)量化的性能度量指標(biāo)：信噪比（SNR）和對(duì)數(shù)光譜距離（LSD）。較高的SNR值表示更清晰的聲音，而較低的LSD值表示匹配的頻率內(nèi)容。LSD值顯示神經(jīng)網(wǎng)絡(luò)正在嘗試在適當(dāng)?shù)牡胤交謴?fù)較高的頻率。然而，稍低的SNR值意味著音頻可能不是清晰的。

一篇受到這個(gè)架構(gòu)啟發(fā)的論文聲稱對(duì)數(shù)據(jù)進(jìn)行了400次的訓(xùn)練，而由于時(shí)間限制，我只能訓(xùn)練10次。較長(zhǎng)的訓(xùn)練周期可能導(dǎo)致重建波形的清晰度提高。你可以在下面聆聽測(cè)試集中的示例音頻剪輯。前5秒剪輯是原始音頻16 kbps，第二個(gè)是4kbps的下采樣音頻，最后一個(gè)是16kbps的重建音頻。

1.從測(cè)試集中以16 kbps的隨機(jī)剪輯。

2.下采樣版本的上述剪輯。請(qǐng)注意，所有高頻內(nèi)容都丟失。

3.重建剪輯。大部分高頻內(nèi)容已經(jīng)以犧牲清晰度的代價(jià)來恢復(fù)。

開源貢獻(xiàn)

下采樣音頻的重建可以有各種應(yīng)用，更令人興奮的是將這些技術(shù)應(yīng)用于其他非音頻信號(hào)的可能性。我鼓勵(lì)你采用和修改我的github repo提供的代碼，從而對(duì)這些代碼進(jìn)行實(shí)驗(yàn)。

除了提供這些實(shí)驗(yàn)的代碼之外，我還希望為日益增長(zhǎng)的應(yīng)用AI社區(qū)提供更多的開源資源。由于子像素卷積層是一種可能對(duì)深入學(xué)習(xí)研究人員和工程師都有用的通用操作，因此我一直在對(duì)TensorFlow作出貢獻(xiàn)，并與他們的團(tuán)隊(duì)緊密合作，以便將其整合到代碼庫中。

作者：Jeffrey Hetherly

來源：insightdatascience

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法，實(shí)際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報(bào)表系統(tǒng)等全方位知識(shí)

QQ群：81035754

GPU云服務(wù)器云服務(wù)器使用深度學(xué)習(xí) 深度學(xué)習(xí)使用快速使用深度學(xué)習(xí) 深度學(xué)習(xí)的使用

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://m.hztianpu.com/yun/4560.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

voidking

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

云虛擬主機(jī)有什么用-云虛擬主機(jī)有什么優(yōu)勢(shì)嗎？

閱讀 1149·2021-09-22 15:26
易探云：金秋上云季活動(dòng),香港/美國/日本云服務(wù)器僅18元/首月;香港/國內(nèi)物理機(jī)低至390元/月起

閱讀 2727·2021-09-09 11:52
狗盾云：亞太雙向CN2+美國GIA CN2節(jié)點(diǎn)CDN，免費(fèi)1個(gè)月，號(hào)稱打不死

閱讀 2055·2021-09-02 09:52
DediPath：全場(chǎng)5折優(yōu)惠，E3-1230v3/16G/240G SSD/30T/1Gbps/5

閱讀 2315·2021-08-12 13:28
前端實(shí)例練習(xí) - 模態(tài)圖

閱讀 1248·2019-08-30 15:53
鳥瞰前端 , 再論性能優(yōu)化

閱讀 581·2019-08-29 13:47
IE9無法支持大尺寸CSS的陷阱

閱讀 3469·2019-08-29 11:00
切圖崽的自我修養(yǎng)－SeaJs重要概念剖析

閱讀 3171·2019-08-29 10:58

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

如何使用深度學(xué)習(xí)重建高分辨率音頻？

相關(guān)文章

**深度學(xué)習(xí)在圖像超分辨率重建中的應(yīng)用**

**深度對(duì)抗學(xué)習(xí)在圖像分割和超分辨率中的應(yīng)用**

**科學(xué)領(lǐng)域中的深度學(xué)習(xí)一覽**

發(fā)表評(píng)論

0條評(píng)論

voidking

男|高級(jí)講師

TA的文章

云虛擬主機(jī)有什么用-云虛擬主機(jī)有什么優(yōu)勢(shì)嗎？

易探云：金秋上云季活動(dòng),香港/美國/日本云服務(wù)器僅18元/首月;香港/國內(nèi)物理機(jī)低至390元/月起

狗盾云：亞太雙向CN2+美國GIA CN2節(jié)點(diǎn)CDN，免費(fèi)1個(gè)月，號(hào)稱打不死

DediPath：全場(chǎng)5折優(yōu)惠，E3-1230v3/16G/240G SSD/30T/1Gbps/5

前端實(shí)例練習(xí) - 模態(tài)圖

鳥瞰前端 , 再論性能優(yōu)化

IE9無法支持大尺寸CSS的陷阱

切圖崽的自我修養(yǎng)－SeaJs重要概念剖析

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

如何使用深度學(xué)習(xí)重建高分辨率音頻？

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！