漢維可比語料數據集
漢維可比語料數據集 作者:馮韜 李淼 曹宜超 曾偉輝 2019年4月23日 |
|
摘要&關鍵詞
[編輯]摘要:語料庫的構建是自然語言處理領域的重要工作。但是,雙語平行語料庫的規模和領域並不能滿足實際的需求,尤其是在維吾爾語信息處理中表現得更加明顯。因此,從互聯網上挖掘漢維雙語資源的工作,對於漢維雙語資源的建設、促進民族之間的交流具有十分重要的作用。本文針對維吾爾語複雜多變以及漢維語言形態差異大等特點,研究並設計了漢維可比語料挖掘系統。本系統主要包括漢維網頁正文抽取,漢維可比語料候選獲取以及跨語言相似度計算等幾個部分。目前已經有5000個漢維可比語料篇章,主要是新聞領域語料和政府公文等。該語料庫對於少數民族語言分析與教學,漢維機器翻譯等領域具有十分重要的作用。為了使用的便利,本數據集對漢語和維吾爾語進行了進一步的加工和規範化操作。
關鍵詞:語料庫建設;可比語料;漢維;數據挖掘
Abstract & Keywords
[編輯]Abstract: Corpus construction is a prerequisite for natural language processing. But the fact is that existing parallel corpora do not meet actual needs for their hardly unsatisfactory scale, which is especially true regarding Uighur information processing. Against this background, our work of constructing Chinese-Uighur corpus based on Internet resources plays an important role in preserving Chinese-Uighur bilingual resources and promoting ethnic exchanges. This studies designs a Chinese-Uighur comparable corpus mining system that fully considers the complexities of Uighur language and the great differences between Chinese and Uighur language forms. This process mainly includes web content extraction, acquisition of candidate comparable corpora and cross-language similarity calculation. Till now, we have collected more than 5000 comparable Chinese and Uigur texts, mainly from news and government documents. The corpus plays an important role in minority language analysis and teaching, and in Chinese-Uigur machine translation. For convenience, Chinese and Uighur language pairs have been further processed and normalized.
Keywords: corpus construction; comparable corpus; Chinese- Uighur; data mining
數據庫(集)基本信息簡介
[編輯]數據集名稱 | 漢語-維吾爾語可比語料數據集 |
數據作者 | 馮韜,李淼,曹宜超,曾偉輝 |
數據通信作者 | 李淼(mli@iim.ac.cn) |
數據時間範圍 | 2016-2019 |
數據量 | 5000篇章 |
數據格式 | *.txt |
數據網址 | http://202.127.200.3/sc/kbyl http://www.sciencedb.cn/dataSet/handle/748 |
基金項目 | 中國科學院信息化專項科學大數據工程(一期)多民族語言資源特色數據庫課題(XXH13505-03-203) |
數據集組成 | 該數據集由從互聯網上挖掘的漢語和維吾爾語的可比語料構成,漢語和維吾爾語是篇章對應的。漢維可比語料主要是新聞領域的語料,包括新聞標題、時間、正文等。該數據集包含兩個數據文件,它們分別為ch_corpus.zip和uy_corpus.zip,其中:每一個壓縮包中包含4個文檔文件,分別是document_1,document_2,document_3和document_4。每個文檔文件包含兩個文件夾uy和ch,其中uy表示維吾爾語,ch表示漢語,每一個文件夾中又包含多個txt文檔,維吾爾語和漢語的txt文檔是按照名稱一一對應的。 |
Dataset Profile
[編輯]Title | A Chinese-Uighur comparable corpus |
Data corresponding author | Miao Li (mli@iim.ac.cn) |
Data authors | Feng Tao, Li Miao, Cao Yichao, Ceng Weihui |
Data volume | 5000 documents |
Data format | *.txt |
Data service system | http://202.127.200.3/sc/kbyl http://www.sciencedb.cn/dataSet/handle/748 |
Sources of funding | Science Big Data Project (Phase I) of the Chinese Academy of Sciences Informatization Program; Multi-ethnic Language Resource Characteristic Database Project (XXH13505-03-203). |
Dataset composition | The dataset is composed of comparable corpus of Chinese and Uigur, obtained from the Internet. Chinese and Uigur language pairs are textually corresponding. The dataset is mainly from news, including news headlines, time and text. The dataset contains two data files: ch_corpus.zip and uy_corpus.zip. Each package contains four documents, namely document_1, document_2, document_3 and document_4. Each document contains two folders: uy and ch, where uy represents Uyghur, ch represents Chinese, and each folder contains multiple text documents. Uighur and Chinese language pairs are organized correspondingly according to their names. |
引 言
[編輯]語料庫是自然語言處理工作的基礎資源,具有非常大的應用價值。根據語料庫包含的語種數量,可以分為單語語料庫、雙語語料庫以及多語語料庫。其中,雙語語料庫是最常用也是最主要的語料庫資源,根據語料庫中語料資源的對應關係,其包含平行語料庫和可比語料庫兩種形式。平行語料庫中的雙語數據嚴格互譯,其按照不同的對齊粒度可以分為詞級、句級、段級以及篇章級。平行語料由於其良好的互譯性、雙語資源嚴格對齊等特點,已經被廣泛應用於自然語言處理的許多方面。但是,平行語料庫的構建是一項非常艱巨的任務,需要藉助語言學專家的知識,耗時費力,周期較長。而且,從互聯網上獲取平行語料也是比較困難的,因為互聯網中嚴格互譯的文檔資源比較稀少,無法從網絡中挖掘大規模的平行語料資源。因此,目前平行語料庫中的雙語資源數量並不能達到實際的應用需求,尤其是在類似於維吾爾語的少數民族語言方面,該問題更加明顯。
可比語料作為平行語料的補充,日益受到了人們的重視。可比語料是指內容具有一定的相似性但是並不是嚴格互譯的雙語資源。兩篇可比語料文檔的主題相似,描述的是同一個事件,但是獨立的產生於各自的語言中,文本之間並不是互譯的,這些特點使得可以利用機器學習算法從大規模的互聯網文本中獲取可比語料。首先利用網絡爬蟲技術從互聯網上挖掘源語言文本,其次採用主題建模算法獲取文本的主題,然後從互聯網上挖掘類似主題的目標語言候選文本,最後利用跨語言相似度算法獲取最終的目標文本,並將其放入到可比語料庫中[1]。可比語料也可以應用於自然語言處理的其他任務中,如機器翻譯,跨語言信息計算,語言模型等。因此,可比語料對於自然語言處理領域具有十分重要的意義。
我國是一個統一的多民族的國家,維吾爾語信息處理對於促進民族之間的交流與合作具有十分重要的意義,漢維可比語料庫的建設可以有效的促進漢維機器翻譯的研究。目前神經機器翻譯已經取得了很好的進展,在多種語言對上的性能超過了傳統的機器翻譯方法。但是,神經機器翻譯是「數據驅動」的方法,其性能嚴重的依賴於平行語料的規模、質量和領域覆蓋面,只有大量的數據才能充分的發揮神經網絡的性能。所以,漢維平行語料資源的匱乏嚴重製約了漢維機器翻譯的發展,但是人工構建漢維平行語料庫又是非常困難的。因此,在漢維平行語料資源不足的情況下,從互聯網上挖掘高質量的漢維可比語料具有重要的意義,可以為漢維機器翻譯的研究以及維吾爾語信息處理提供語料資源和技術支撐。
1 數據採集和處理方法
[編輯]漢語和維吾爾語文本數據是利用網絡爬蟲技術從互聯網上獲取的,然後對其進行數據預處理、特徵提取、相似度計算等步驟,最終決定是否將其放入到漢維可比語料庫中。漢維可比語料挖掘系統框架結構如圖1所示。
圖1 漢維可比語料系統示意圖
該系統利用最大連續文本密度和的方法對漢語和維吾爾語的網頁內容進行抽取。根據現有的網頁正文抽取方法,本方法提出了一個融合結構和語言特徵的統計模型,將網頁文檔轉化為正、負交替的文本密度序列。為避免丟失短小正文行,採用高斯平滑技術,通過鄰近行內容的連續性,增加短文本行的文本密度[2][3]。最後,結合最大間隔距離,利用動態規劃的方法計算最大連續文本密度和來抽取網頁正文內容,這樣可以有效避免將網頁評論等篇幅較長的噪聲誤判為正文內容的情況發生。
在獲取漢語和維吾爾語網頁文本之後,對其進行相似度計算[4]。在漢維可比語料挖掘系統中,採用融合多特徵的漢維網頁文本相似度計算方法。該方法首先抽取預處理後的網頁文本的發布時間、標題和正文信息等特徵,這裡的預處理主要是先去噪,然後翻譯維吾爾語標題和關鍵字,再使用中科院的ICTCLSA(Institute of Computing Technology, Chinese Lexical Analysis System)系統進行分詞、過濾停用詞等處理[5][6]。然後根據上述特徵計算雙語文檔發布日期的差異、正文長度關係、正文阿拉伯數字相似度、標題重合程度以及正文重合程度5種啟發信息,並將它們作為特徵來判斷漢語文本和維吾爾語文本的相似程度。在該方法中利用正則表達式匹配文本的標題和發布日期並且抽取文本的正文內容,然後利用正則表達式提取正文中的阿拉伯數字。選擇雙語文檔發布日期作為相似度計算的特徵是因為不同語言文本對同一事件的描述一般是在事件發生後的一段時間內,兩篇可比語料文檔的發布日期應該是相近的[7][8]。
對於網頁文本內容,選擇正文長度關係、正文阿拉伯數字、標題重合度以及正文重合程度作為相似度計算的特徵。選擇正文長度關係是由於兩篇可比語料文本對同一事件的描述應基本一致,內容長度比應該在某個值附近分布,可將長度關係轉換為長度關係度;選擇正文阿拉伯數字相似度是因為可比語料的不同語言文檔是對同一事件的描述,那麼出現在正文中的量詞等阿拉伯數字應基本一致,可以利用歐式距離計算漢維文本中的阿拉伯數字的相似度;選擇標題重合程度是因為新聞標題是對內容的概要,可比語料的源語言標題經翻譯後應與目標語言標題基本一致,即有較多相同的詞彙;選擇正文重合程度是因為兩篇可比語料文檔的主題是一致的,源語言新聞正文經翻譯後的文本應與目標語言新聞正文相似,即兩篇新聞文檔的主旨是相同的。為了提高模型的效率,減少其計算時間,本文取300個字符作為處理的閾值,即文本長度超過300個字符的數據不參與正文重合度的計算。最後通過神經網絡訓練得到各啟發信息的權重並將5種啟發信息進行加權融合,從而得到兩篇漢維新聞文檔的相似度得分。
2 數據樣本描述
[編輯]本數據集的一個樣本共包含兩個文件:第一個是txt格式的漢語語料文本,第二個是txt格式的維吾爾語語料文本,漢語文本和維吾爾語文本是一一對應的,圖2、圖3分別表示漢語語言文本和其相對應的維吾爾語語言文本。
圖2 漢語語言文本
圖3 維吾爾語語言文本
整個數據集由5000個樣本數據構成,即數據集包含5000個漢語語言文本和5000個維吾爾語語言文本。圖4和圖5分別表示漢語文本的數據結構和維吾爾語文本的數據結構。漢語的文件名是ch,維吾爾語的文件名是uy,每一個文件夾中包含多個文本數據,它們是一一對應的關係。如圖4中的1_cn.txt與圖5中的1_uy.txt是一組可比語料對。
圖4 漢語文本的數據結構
圖5 維吾爾語語言文本數據結構
3 數據質量和評估
[編輯]為了保證可比語料數據的質量,將漢維可比語料加入到數據庫後,審核人員會對這些數據進行進一步篩選和審查。並且為了更好的服務審核人員,我們開發了遠程Web網頁系統供審核人員使用,在網頁中顯示漢維可比語料供專家審查。因此,維吾爾語語言專家們可以通過遠程登錄網頁的方式對漢維可比語料進行審核,對於審核結果不達標的可比語料,將它們從漢維可比語料庫中刪除。
在獲取漢維可比語料的過程中,我們使用了正則匹配算法對維吾爾語和漢語語料文本進行去噪處理。針對網頁文本雜亂無序、不規範等特點,我們把網頁中的一些冗餘標籤,如「<script>」、「<!---->」等替換成空白符,並刪除網頁文本數據中的一些無用的字符,如「/n」「/r」等。此外,我們還對挖掘到的語料文本數據進行了相應的處理,主要是刪除網頁文本中的一些雜亂字符,如將獲取到的語料文本數據中的「 」替換成空格符,將「&ldquo」替換成上引號,將「&rdquo」替換成下引號等操作。
4 數據價值
[編輯]本數據集共分享了5000篇章的漢語和維吾爾語的可比語料,對於漢維機器翻譯和維吾爾語信息處理具有重要的意義。本數據集可以用於少數民族語言教學和語法語義分析研究,也可以用於訓練維吾爾語語言模型和詞嵌入等實際任務中,具有廣泛的科研價值和較高的社會應用價值。
可比語料庫是具有相近含義但不是嚴格互譯的兩種語言文本的集合,因此,對於研究兩種語言的語法特點和跨語言相似度計算具有十分重要的意義。可比語料庫作為自然語言處理領域的重要資源,日益受到了人們的重視,已經被廣泛應用於計算語言學的許多方面。
參考文獻
[編輯]- ↑ 馬穎華, 王永成, 蘇貴洋, 等. —種基於字同現頻率的漢語文本主題抽取方法[J]. 計算機研究與發展, 2003, 40(6): 874-878.
- ↑ 肖根勝. 改進TFIDF和譜分割的關鍵詞自動抽取方法研究[D]. 武漢: 華中師範大學, 2012.
- ↑ 安增文 , 王超, 徐傑鋒. 基於機器學習的網頁正文提取方法[J]. 微型機與應用, 2010 (12): 4-6.
- ↑ 郭華庚, 趙英. 跨語言信息檢索研究與應用[J]. 現代情報, 2008, 28(9):142-145.
- ↑ 梁建飛, 吐爾根·依布拉音, 田生偉, 等. 漢維主題網頁自動獲取技術的研究[J]. 計算機應用與軟件, 2012, 29(01): 42-45.
- ↑ 楊宇娜. 基於統計的中文詞義消歧技術研究[D]. 哈爾濱: 哈爾濱工業大學, 2006.
- ↑ 任高舉, 吐爾根·伊布拉音, 艾山·吾買爾. 統計機器翻譯中漢維短語對抽取的研究[J]. 新疆大學學報(自然科學版), 2010, 27(03): 349-352.
- ↑ 熱西旦·塔依, 吐爾根·依布拉音. 漢文-維吾爾文雙語語料庫中段落對齊技術研究[J]. 新疆大學學報(自然科學版), 2010, 27(01): 102-105.
數據引用格式
[編輯]馮韜, 李淼, 曹宜超, 曾偉輝. 漢維可比語料數據集[DB/OL]. Science Data Bank, 2019. (2019-04-08). DOI: 10.11922/sciencedb.748.