基於端點檢測的蒙藏維語音片段數據集

基於端點檢測的蒙藏維語音片段數據集
作者：韋向峰　袁毅　張全　吐爾遜·卡得
2019年12月30日

本作品收錄於《中國科學數據》

韋向峰, 袁毅, 張全, 吐爾遜·卡得. 基於端點檢測的蒙藏維語音片段數據集[J/OL]. 中國科學數據, 2019, 4(4). (2019-07-22). DOI: 10.11922/csdata.2019.0024.zh.

姊妹計劃: 數據項

摘要&關鍵詞

摘要：在「中國少數民族地區蒙藏維言語錄音2015數據集」的語音數據基礎上，採用短時能量和短時過零率的雙門限端點檢測方法，得到一個句子語音的多個語音片段文件。本語音片段數據集包含蒙古語語音片段1657個、藏語語音片段666個、維吾爾語語音片段756個，數據總量大小約為111 MB。通過軟件自動切分和語言專家的多重審核校對得到高質量的蒙藏維多語種的語音片段數據，可應用於少數民族的語音識別、端點檢測、語音增強、語音合成和語言教學等領域。

關鍵詞：語音片段；端點檢測；蒙古語；藏語；維吾爾語；語音數據

Abstract & Keywords

Abstract: Based on the speech data in Mongolian, Tibetan, and Uyghur speech data from Chinese minority regions in 2015, we adopted a double threshold Voice Activity Detection method with short-time energy and short-time zero-crossing rate to obtain multiple voice fragments of each sentence speech. The result dataset contains 1657 Mongolian speech fragments, 666 Tibetan speech fragments and 756 Uygur speech fragments. The total volume of the data is about 111 MB. Through automatic software segmentation and multiple auditing and proofreading by language experts, we have obtained high-quality voice fragment data of Mongolian, Tibetan and Uygur, which can be applied to minority speech recognition, voice activity detection, speech enhancement, speech synthesis and language teaching.

Keywords: speech fragment; voice activity detection; Mongolian; Tibetan; Uyghur; speech data

數據庫（集）基本信息簡介

數據庫（集）名稱	基於端點檢測的蒙藏維語音片段數據集
數據作者	韋向峰、袁毅、張全、吐爾遜·卡得
數據通信作者	韋向峰（wxf@mail.ioa.ac.cn）
數據時間範圍	2015年
地理區域	中國內蒙古、青海、西藏、新疆
數據量	111 MB
數據格式	*.mp3
數據服務系統網址	http://www.sciencedb.cn/dataSet/handle/788
基金項目	中國科學院信息化專項科學大數據工程（一期），多民族語言資源特色數據庫，XXH13505-03-203；中國科學技術信息研究所富媒體數字出版內容組織與知識服務重點實驗室開放基金項目，面向語音與文本內容的富媒體關聯研究與技術實現；國家社科基金項目，維吾爾語方言語音聲學參數庫研製，13BYY34。
數據集組成	數據集分為蒙古語、藏語、維吾爾語3個語種，分別保存到meng、zang、wei 3個目錄，每個目錄包含相應語種的語音片段文件，蒙古語語音片段1657個、藏語語音片段666個、維吾爾語語音片段756個。

Dataset Profile

Title	A dataset of Mongolian, Tibetan and Uyghur speech fragments based on voice activity detection
Data corresponding author	Wei Xiangfeng (wxf@mail.ioa.ac.cn)
Data authors	Wei Xiangfeng, Yuan Yi, Zhang Quan, Tursun Kadir
Time range	2015
Geographical scope	Inner Mongolia, Qinghai, Tibet and Xinjiang in China
Data volume	112 MB
Data format	*.mp3
Data service system	<http://www.sciencedb.cn/dataSet/handle/788>
Sources of funding	Multi-Layer Multi-Lingual Resource Characteristic Database，Scientific Big Data Project (Phase I), Special Project for Informatization in Chinese Academy of Sciences, XXH13505-03-203; Research and Technical Implement on Rich Media Linkage between Speech and Text, Open Fund Project of Key Laboratory of Rich Media Digital Publishing Content Organization and Knowledge Service, Institute of Scientific and Technical Information of China; Research and Development of Acoustic Parameter Database of Uygur Dialect, National Social Science Fund Project, 13BYY34.
Dataset composition	The dataset is divided into three languages: Mongolian, Tibetan and Uygur, which are saved to three directories: meng, zang and wei. Each directory contains speech fragment files of corresponding languages, including 1657 Mongolian speech fragments, 666 Tibetan speech fragments and 756 Uygur speech fragments.

引言

隨着人工智能技術的蓬勃發展，數據特別是已標註數據在其中起到了關鍵的基礎作用，許多人工智能系統的啟動和模型訓練已經離不開數據或已標註數據。在人機語音交互的語音識別、語音合成等領域，語音片段語料具有重要的價值和實際應用。例如在語音識別系統中，經過端點檢測的語音片段可以節省存儲空間，提高識別的速度，去除非語音內容和部分噪音，改善後續處理的性能和效率。

我國是一個多民族的國家，少數民族的語音數據和語音處理技術與漢語相比還有很大的差距，少數民族的語言資源處理由於各種原因存在研究力量少、可供交流共享的數據少、研究力量和數據資源分散，以及規範標準不統一等問題。在漢語或英語的語音信號端點檢測中，常用的方法有基於短時能量、短時過零率、倒譜特徵和信息熵的方法^[1]^[2]^[3]^[4]。針對蒙古語的語音信號處理，有研究者提出了基於支持向量機（Support Vector Machine，SVM）的蒙古語語音端點檢測方法，在參考借鑑漢語、藏語等語種的語音端點檢測技術基礎上，實現了對蒙古語的語音段和非語音段的分類檢測，取得了良好效果^[5]。近年來由於人工神經網絡技術的興起，有研究者利用深度神經網絡和卷積神經網絡作為分類模型，結合多通道的語音信號對不同噪聲環境類型進行分類處理，結果表明多通道的語音信號可以有效提升分類效果，且對不同類型噪聲環境具有一定的魯棒性^[6]。此外，還有針對彝語孤立詞的端點檢測，通過引入經驗模態分解與改進的過零率法相結合，對於較低信噪比環境下的帶噪彝語孤立詞，可以得到比經典方法相對更加準確的端點檢測結果^[7]；針對佤語語音語料的端點檢測，利用多窗譜估計譜減法去除語音的背景噪音以提高信噪比，然後再使用能熵比算法進行端點檢測，仿真結果表明，與常規的能熵比算法相比，該種端點檢測方法的準確率提高了34%^[8]。由於基於SVM和人工神經網絡的方法需要標註好的大量訓練語料，而基於短時能量和短時過零率的方法不需要訓練語料、在信噪比高的條件下就可獲得較好的結果，所以本文在缺乏少數民族語言端點檢測訓練語料且所處理語音語料具有高信噪比的條件下，選用了基於短時能量加短時過零率的方法。

本文數據集的語音片段數據主要是使用端點檢測中的雙門限（短時能量）加短時過零率檢測方法，對《2015年中國少數民族地區蒙藏維言語錄音數據集》^[9]蒙古語、藏語和維吾爾語的語音數據進行了端點檢測，把句子級的語音信號切分成多個純語音片段，再通過人工審核和校對處理得到符合要求的人類語音片段，不含人類語音的語音片段被捨棄。這些語音片段可作為蒙藏維語音識別系統中端點檢測的標準語料，測試端點檢測的準確率；進一步加工後也可以作為蒙藏維語音識別系統的評測語料，評測語音識別系統的錯誤率；還可以用於蒙藏維語音合成系統中的停頓、節奏、語氣等韻律研究。本文希望通過數據集的開放共享，為少數民族特別是蒙藏維等民族的語音數據資源提供不同層次、不同角度的研究數據，促進蒙藏維言語數據、語音分析和語音處理系統的開發研究，同時為民族地區科技研究、社會發展和語言信息化做出貢獻。

1 數據採集和處理方法

本數據集是對《2015年中國少數民族地區蒙藏維言語錄音數據集》^[10]中語音文件的加工，該數據集中的每一個語音文件（mp3格式）對應一個句子。因此，一個句子的語音文件經過端點檢測技術加工後，得到多個語音片段結果文件（也是mp3格式），語音片段結果文件是句子語音的一部分，不包含靜音段或噪聲段。

為了得到句子中的人類語音信號，去除句子中的靜音段或噪聲段，需要進行以下步驟的處理：（1）數據預處理；（2）計算短時能量和過零率；（3）獲取語音段。數據預處理是把句子的語音信號轉化為標準的語音信號，以便後續步驟的處理和數據的規範。計算短時能量和過零率是對語音信號進行分幀和加窗處理，然後根據公式計算每一幀的短時能量和短時過零率。獲取語音段是根據一定的算法，判斷語音信號中人類發聲語音段的起始位置和終止位置，並把這些語音片段信號切分出來。以下是對這三個步驟的更具體的描述。

1.1 數據預處理

加工前的語音信號數據^[10]，在本文中既有單通道的，也有多通道的；採樣率包括8 KHz、16 KHz、44.1 KHz等。為了保證數據的統一規範和後續數據處理的便利，本文使用FFmpeg軟件對語音信號文件進行了數據轉化，統一轉化為16 KHz、單聲道的音頻數據文件。FFmpeg軟件可以對音視頻數據（如wav、mp3、mp4格式的文件）進行轉化和處理，得到不同格式不同參數標準的數據文件。以下命令是把一個mp3文件轉換為規範的單聲道、採樣率為16 KHz的mp3文件：

FFmpeg.exe -i 2019-1.mp3 -ac 1 -ar 16000 2019-2.mp3

經過數據預處理後的語音數據文件可以用於語音信號的分幀、能量計算、時頻轉換、參數提取等，為後續步驟提供標準規範的數據。

1.2 短時能量和短時過零率

語音信號雖然是典型的非平穩信號，但在一個很短的時間內（20–30 ms）可以看作一個短時平穩過程，在一個短時間內可以假設信號的頻譜參數和物理特徵不變。在處理語音信號時通常取20 ms為一個「幀」，從而可以計算幀的短時物理特徵。在對語音信號進行分幀處理時，為了使幀與幀之間的過渡能夠平穩，前一幀與後一幀之間可以有重疊的部分，稱為幀移（幀移可以取0–1/2的幀長）。在對時域信號進行處理時，每次只能對有限長度的信號進行快速傅里葉變換（Fast Fourier Transform，FFT），如果分幀處理時截斷的時間不是周期的整數倍，那麼就會產生信號截斷或者信號泄露。為了避免這種信號截斷效應，需要對一幀語音進行加窗處理，即用一個窗函數W(n)乘以一幀語音信號x(n)，得到加窗後的語音信號xw(n)=W(n)*x(n)。

常用的窗函數有矩形窗和漢明窗，它們的數學函數表示分別如下：

（1）矩形窗函數：

                     \(W_{(n)}=\left\{\begin{matrix}1 & 0\leqslant n\leqslant L-1\\  0&others \end{matrix}\right.\)                                                   （1）

（2）漢明窗函數：

                     \(W_{(n)}=\left\{\begin{matrix}0.54-0.46cos \left ( \frac{2\pi n}{L-1} \right ) & x< 0\leqslant n\leqslant L-1\\  0&others \end{matrix}\right.\)                                                   （2）

其中，L為時域中窗的長度。一般而言，在處理語音的時域信號時選擇使用矩形窗，在處理語音的頻域信號時選擇使用漢明窗。

語音信號中第n幀的短時能量（使用矩形窗）定義如下：

\({E}_{n}=\sum _{m=-\infty }^{+\infty }{\left[x\left(m\right)W\left(n-m\right)\right]}^{2}=\sum _{m=n-\left(N-1\right)}^{n}{\left[x\left(m\right)W\left(n-m\right)\right]}^{2}=\sum _{m=n-\left(N-1\right)}^{+\infty }{x}^{2}\left(m\right)\) （3）

其中，N為一幀中採樣點的個數（即幀長）。在不同的幀中，靜音片段的語音信號與人類語音片段的短時能量顯然是不同，因此可以通過短時能量的計算區分出靜音信號和人類語音信號。但是，人類的語音信號中又分為清音和濁音，清音的能量較小，濁音的能量大。所以用短時能量的方法很容易把清音歸入到靜音片段中，造成端點檢測的準確率下降。而短時過零率則可以區分出清音和濁音，因為清音的能量多集中在較高的頻率上，清音的短時過零率要高於濁音。對語音的時域信號而言，短時過零率就是一幀語音波形穿過橫軸（過零）的次數。對離散信號而言，可以通過相鄰採樣點的取值是否發生變化來判斷是否穿過橫軸（過零）。因此，短時過零率的計算公式為：

\({Z}_{n}=\frac{1}{2}\sum _{i=2}^{N}\left|sign\left({x}_{n}\left(i\right)\right)-sign\left({x}_{n}\left(i-1\right)\right)\right|\) （4）

其中，sign為符號函數，即：

                     \(sign(x)=\left\{\begin{matrix}1 &x< 0 \\  -1&x\geqslant 0 \end{matrix}\right.\)                                                   （5）

這樣，通過對語音信號的分幀、加窗處理，計算出每一幀的短時能量和短時過零率，然後通過設置人類語音與噪音、靜音之間的短時能量門限，可以判斷該幀語音信號是否為人類語音；通過設置短時過零率的門限，可以把清音、濁音、噪音區分開來，避免把清音作為靜音處理，從而提高對語音信號端點檢測的準確率。

1.3 獲取語音片段

在計算出每一幀的短時能量和短時過零率之後，可以用雙門限加短時過零率的門限來判斷人類語音信號片段的起始幀位置和結束幀位置。因為人類發聲是一個從無聲到逐漸增強，在逐漸減弱到無聲的過程，所以利用這一發聲的能量特性可以得到語音信號中的人類發聲語音片段。首先，設定一個較高的門限T1，當某一幀語音信號的短時能量大於門限T1時，可以認為是語音片段的一個開始位置B1；當另一幀語音信號的短時能量小於門限T1時，可以認為是語音片段的一個結束位置E1。這裡獲得的開始位置和結束位置有一定的誤差，還需要進一步精細化邊界。其次，設定一個較低的門限T2，從前面獲得的起始位置B1往前面的幀尋找低於門限T2的幀，找到的第一個幀就是新的起始位置B2；同理，從前面獲得的結束位置E1往後尋找低於門限T2的幀，找到的第一個幀就是新的結束位置E2。起始位置B2到結束位置E2之間的語音信號段即為基於短時能量雙門限判斷得到的人類發聲語音片段。由於使用這種方法仍然有可能漏掉一些清音，所以還需要使用短時過零率的門限進一步進行邊界的精細化。第三，設定一個過零率的門限T3，從起始位置B2往前面的幀尋找低於門限T3的幀，找到的第一個幀就是新的起始位置B3；同理，從起始位置E2往後尋找低於門限T3的幀，找到的第一個幀就是新的結束位置E3。此時，獲得的起始位置B3和結束位置E3就是人類發聲語音片段的最終起止位置（需要說明的是，在第二步中可能找不到低於門限T2的幀，則起始位置仍為B1或者結束位置仍為E1；在第三步中，若找不到低於門限T3的幀，則仍以前面步驟獲得的起止位置為最終起止位置）。

具體的實現步驟如下^[11]：

（1）對語音信號進行分幀、加窗處理；

（2）以幀為單位，計算每一幀的短時能量En 和短時過零率Zn；

（3）算出前m幀（如6–10幀）語音信號的短時能量和過零率的門限值，計算公式如下：

                     \(t_{0}=0.03\left ( \underset{n= 1,2,...,m}{max}\left \{ E_{n} \right \}-\underset{n= 1,2,...,m}{min}\left \{ E_{n} \right \} \right )+\underset{n= 1,2,...,m}{max}\left \{ E_{n} \right \}\)                                         （6）

                     \(t_{1}=4*\underset{n= 1,2,...,10}{min}\left \{ E_{n} \right \}\)                                         （7）

\({T}_{2}=\mathrm{m}\mathrm{i}\mathrm{n}\left\{{t}_{0},{t}_{1}\right\}\) （8）

\({T}_{1}=5*{T}_{2}\) （9）

\({T}_{3}=\mathrm{m}\mathrm{i}\mathrm{n}\left\{25,\mu +2\sigma \right\}\) （10）

其中，m為幀數，μ 為m幀信號的過零率的平均值， σ 為標準差。

（4）使用短時能量和過零率的門限值T1、T2和T3，搜尋得到語音片段的最終起止位置，方法如下：

從第m+1幀開始，找到第一個短時能量大於t0的幀（假設幀號為b），從b往後檢查每一幀的短時能量，如果在超過T1之前都比t0小的話，幀號b作為起始位置的資格作廢，按步驟（3）繼續尋找下一個幀號b。直到找到第一個短時能量大於T1的幀，這就是語音段的起始位置B1。然後從b往前到b−25幀，依次比較過零率，如果有3幀以上的過零率大於或者等於T3，則滿足此條件的最前面的幀作為起始位置B3，否則起始位置仍為B1。

從起始位置開始，往後面尋找第一個短時能量小於T2的幀（假設幀號為e），得到結束位置E2。從e往後到e+25幀，依次比較過零率，如果有3幀以上的過零率等於或者大於T3，則滿足此條件的最後面的幀作為結束位置E3，否則結束位置仍為E2。

從結束位置的後一幀繼續尋找獲得新的語音片段的起始位置和結束位置，直到整個語音信號的末尾。

這樣，就可以獲得語音信號中的多個語音片段的各自起始位置和結束位置，而靜音段和噪聲段的語音信號被捨棄。根據語音片段的起始位置和結束位置可以從語音信號中截取出新的語音片段文件。在本文中語音片段的保存格式是mp3格式。

2 數據樣本描述

本數據集包含蒙古語、藏語和維吾爾語3個語種的語音片段數據文件，分別保存於不同的3個文件目錄：meng、zang、wei。藏語和維吾爾語的語音片段文件命名方式與蒙古語的類似。其中，蒙古語的語音片段數據文件有1657個，藏語的語音片段數據文件有666個，維吾爾語的語音片段數據文件有756個；對應的蒙古語、藏語和維吾爾語的原始語音文件個數分別為：498個、83個和200個。

本數據集的樣本為多個語音文件，文件格式為mp3格式，每個語音文件存儲一個語音片段。文件名稱第一部分的數字編號相同的語音文件，其中的某些語音片段可能來自於同一個原始語音信號文件^[10]。

2.1 蒙古語的語音片段

蒙古語的語音片段文件共1657個，部分蒙古語語音片段文件如圖1所示。

圖片

圖1 蒙古語的語音片段文件示例

圖1中文件名稱的第一部分數字（如「302」）表示原始的語音文件編號（即在《2015年中國少數民族地區蒙藏維言語錄音數據集》^[10]中的編號），見圖2。文件名稱的第二部分數字（如「600」）表示該語音片段在原始語音文件中的起始時間位置，文件名稱的第三部分數字（如「4400」）表示該語音片段在原始語音文件中的結束時間位置，時間位置的單位為ms（毫秒）。

圖片

圖2 蒙古語原始語音文件的名稱和編號示例

蒙古語的語音片段切分之前的原始語音文件為一個完整句子的錄音，蒙古語的原始語音文件共498個，部分蒙古語原始語音文件和編號如圖2所示。

2.2 藏語的語音片段

藏語的語音片段文件共666個，部分藏語語音片段文件如圖3所示。

圖片

圖3 藏語的語音片段文件示例

圖3中文件名稱的第一部分數字（如「4134」）表示原始的語音文件編號（即在《2015年中國少數民族地區蒙藏維言語錄音數據集》^[10]中的編號），見圖4。文件名稱的第二部分數字（如「2300」）表示該語音片段在原始語音文件中的起始時間位置，文件名稱的第三部分數字（如「3700」）表示該語音片段在原始語音文件中的結束時間位置，時間位置的單位為ms（毫秒）。

圖片

圖4 藏語原始語音文件的名稱和編號示例

藏語的語音片段切分之前的原始語音文件為一個完整句子的錄音，藏語的原始語音文件共83個，部分藏語原始語音文件和編號如圖4所示。

2.3 維吾爾語的語音片段

維吾爾語的語音片段文件共756個，部分維吾爾語語音片段文件如圖5所示。

圖片

圖5 維吾爾語的語音片段文件示例

圖5中文件名稱的第一部分數字（如「3001」）表示原始的語音文件編號（即在《2015年中國少數民族地區蒙藏維言語錄音數據集》^[10]中的編號），見圖6。文件名稱的第二部分數字（如「600」）表示該語音片段在原始語音文件中的起始時間位置，文件名稱的第三部分數字（如「5400」）表示該語音片段在原始語音文件中的結束時間位置，時間位置的單位為ms（毫秒）。

圖片

圖6 維吾爾語原始語音文件的名稱和編號示例

維吾爾語的語音片段切分之前的原始語音文件為一個完整句子的錄音，維吾爾語的原始語音文件共200個，部分維吾爾語原始語音文件和編號如圖6所示。

3 數據質量控制和評估

本數據集的基礎是《2015年中國少數民族地區蒙藏維言語錄音數據集》^[10]，該數據集的語音數據文件質量高、信噪比高，因此在該數據集的基礎上加工得到的語音片段文件具有很高的準確率。為了進一步確保數據的質量和準確性，對於蒙古語、藏語和維吾爾語三個語種的語音片段文件，每個語種請兩位語言專家對照原始語音文件進行審核校對，對於錯誤的語音片段文件，定位其在原始語音文件中的位置，利用語音標註軟件Praat等軟件工具進行重新標註和修正，並對相鄰的語音片段文件也進行了重新校對。通過軟件和算法（參見本文第1章的數據處理方法），可以自動得到一個原始語音文件的多個語音片段，再通過專家之間的相互審核校對，就得到了最終的準確度高、保證質量的蒙古語、藏語和維吾爾語的語音片段數據集。

4 數據價值

本數據集中的蒙古語、藏語和維吾爾語的語音片段數據，可以直接作為相應少數民族語種語音識別系統端點檢測模塊的測試基準，測試端點檢測結果的準確程度；也可以分析研究其中的語音特徵參數、各語種語音特徵的特點和難點，改進端點檢測算法，進一步提高端點檢測的準確率，增強端點檢測算法在低信噪比和噪聲背景下的自適應能力和魯棒性。通過語音文件對應的文本、語音片段對應的文本，本數據集也可以作為測試少數民族相應語種語音識別系統的測試數據，測試語音識別系統的性能，進一步提取語音片段的參數特性，分析改進語音識別系統的方法。本數據集還可以作為少數民族相應語種的語音合成系統的數據基礎，用於分析相應語種的發音特點、停頓特點、韻律節奏特點；經過進一步的加工可以從中提取詞彙級、短語級的對應語音和文本，直接作為相應語種語音合成系統的數據基礎。總之，本數據集的語音片段數據，包含了人類發音的基本信號和信息，從中可以分析語音信號特徵和測試語音信號處理系統，從而應用到相應的語音識別、語音增強、語音合成和語音教學等多個領域。

參考文獻

↑ 崔冬青, 李治柱. 一種噪聲環境下連續語音識別的快速端點檢測算法[J]. 計算機工程與應用, 2003, 32(23):97–101.
↑ 徐大為, 吳邊. 一種噪聲環境下的實時語音端點檢測算法[J]. 計算機工程與應用, 2003, 32(l):115–117.
↑ 劉慶生, 徐霄鵬. 一種語音端點檢測方法的探究[J]. 計算機工程, 2003, 29(3) :120–123.
↑ 夏敏磊. 語音端點檢測技術研究[D]. 杭州: 浙江大學, 2005.
↑ 朝木日樂格. 基於支持向量機的蒙古語語音端點檢測方法研究[D]. 呼和浩特: 內蒙古大學, 2011.
↑ 王思蒙. 基於神經網絡的多通道語音端點檢測方法研究[D]. 呼和浩特: 內蒙古大學, 2018.
↑ 楊喜敬. 帶噪漢、彝孤立詞的端點檢測方法對比研究[D]. 昆明: 昆明理工大學, 2015.
↑ 和麗華, 江濤, 潘文林, 等. 佤語語音語料端點檢測算法[J]. 雲南大學學報（自然科學版）, 2019, 28(2): 186–190.
↑ 韋向峰, 袁毅, 張全, 等. 2015年中國少數民族地區蒙藏維言語錄音數據集[J/OL]. 中國科學數據, 2016, 1(2). DOI: 10.11922/csdata.120.2015.0024.
^ ^10.0 ^10.1 ^10.2 ^10.3 ^10.4 ^10.5 ^10.6 韋向峰, 袁毅, 張全, 等. 2015年中國少數民族地區蒙藏維言語錄音數據集[DB/OL]. Science Data Bank. (2015-10-23). DOI: 10.11922/scidb.120.30.
↑ 姜璐璐. 汽車噪聲背景下孤立詞語音信號的去噪處理與識別[D]. 青島: 青島大學, 2014.

數據引用格式

韋向峰, 袁毅, 張全, 吐爾遜·卡得. 基於端點檢測的蒙藏維語音片段數據集[DB/OL]. Science Data Bank, 2019. (2019-07-22). DOI: 10.11922/sciencedb.788.

本作品在「知識共享-署名 4.0 國際」協議下發表。

Public domainPublic domainfalsefalse

[ref4-1] 崔冬青, 李治柱. 一種噪聲環境下連續語音識別的快速端點檢測算法[J]. 計算機工程與應用, 2003, 32(23):97–101.

[ref3-2] 徐大為, 吳邊. 一種噪聲環境下的實時語音端點檢測算法[J]. 計算機工程與應用, 2003, 32(l):115–117.

[ref2-3] 劉慶生, 徐霄鵬. 一種語音端點檢測方法的探究[J]. 計算機工程, 2003, 29(3) :120–123.

[ref1-4] 夏敏磊. 語音端點檢測技術研究[D]. 杭州: 浙江大學, 2005.

[ref5-5] 朝木日樂格. 基於支持向量機的蒙古語語音端點檢測方法研究[D]. 呼和浩特: 內蒙古大學, 2011.

[ref6-6] 王思蒙. 基於神經網絡的多通道語音端點檢測方法研究[D]. 呼和浩特: 內蒙古大學, 2018.

[ref7-7] 楊喜敬. 帶噪漢、彝孤立詞的端點檢測方法對比研究[D]. 昆明: 昆明理工大學, 2015.

[ref8-8] 和麗華, 江濤, 潘文林, 等. 佤語語音語料端點檢測算法[J]. 雲南大學學報（自然科學版）, 2019, 28(2): 186–190.

[ref9-9] 韋向峰, 袁毅, 張全, 等. 2015年中國少數民族地區蒙藏維言語錄音數據集[J/OL]. 中國科學數據, 2016, 1(2). DOI: 10.11922/csdata.120.2015.0024.

[ref10-10] 10.0 ^10.1 ^10.2 ^10.3 ^10.4 ^10.5 ^10.6 韋向峰, 袁毅, 張全, 等. 2015年中國少數民族地區蒙藏維言語錄音數據集[DB/OL]. Science Data Bank. (2015-10-23). DOI: 10.11922/scidb.120.30.

[ref11-11] 姜璐璐. 汽車噪聲背景下孤立詞語音信號的去噪處理與識別[D]. 青島: 青島大學, 2014.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]