蝙蝠源和鼠源病毒病原數據庫
蝙蝠源和鼠源病毒病原數據庫 作者:湯怡潔 李貝 周子健 朱燕 趙鍇 馬麗麗 吳躍偉 石正麗 2019年11月15日於武漢市 |
湯怡潔, 李貝, 周子健, 等. 蝙蝠源和鼠源病毒數據庫[J/OL]. 中國科學數據, 2019, 4(4). (2019-11-15). DOI:10.11922/csdata.2019.0018.zh. (II區出版時間:2019年12月30日) |
摘要&關鍵詞
[編輯]摘要:野生動物源性病毒的跨種感染是引起人類新發病毒性傳染病的主要原因之一,因而系統收集整理野生動物樣本以及病毒病原數據,建設野生動物攜帶病毒病原數據庫顯得尤為必要。本數據庫通過建立的標準元數據描述規範,收集整理加工的蝙蝠和鼠來源的動物樣本和病毒數據達2萬多條,數據覆蓋多個國家以及中國多個省市地區,可以為從事相關野生動物病毒病原相關研究的國內外研究機構、高等學校提供服務。用戶可根據自己的需求對蝙蝠和鼠的物種、樣品類型、物種分布等進行檢索,或對物種攜帶的特定病毒相關信息的檢索查詢。本數據庫的建設將有利於深入系統研究蝙蝠和鼠等野生動物攜帶的病毒,評估病毒傳播到家畜和人的風險,預測新發傳染病熱點,為疾病預防和控制提供理論基礎和技術支撐。
關鍵詞:蝙蝠;鼠;病毒;數據庫
數據庫(集)基本信息簡介
[編輯]數據庫(集)名稱 | 蝙蝠源和鼠源病毒病原數據庫 |
數據作者 | 湯怡潔,李貝,周子健,朱燕,趙鍇,馬麗麗,吳躍偉,石正麗 |
數據通信作者 | 石正麗(zlshi@wh.iov.cn) |
數據量 | 61.5 MB |
數據格式 | MYSQL |
數據服務系統網址 | http://batvirus.whiov.ac.cn/ |
基金項目 | 中國科學院信息化專項(XXH13505-03-210),國家重大科研儀器研製項目(31727901)。 |
數據庫(集)組成 | 本數據庫由蝙蝠採集樣本數據,蝙蝠病毒病原數據,鼠採集樣本數據和鼠病毒病原數據4個部分數據組成。數據庫涵蓋課題組長期積累的樣本和病毒病原數據,以及國外權威機構公開發布的相關數據,共計22257條。 |
引 言
[編輯]據統計,引起全球各地病毒性新發傳染病疫情的病原體70%以上來自野生動物源性病毒的跨種感染。當新發傳染病暴發時,由於我們對野生動物病毒的背景缺乏系統性的研究,因此嚴重製約了對所引發疾病病原的診斷、溯源、防治及採取有效的防控措施。基於武漢病毒研究所及項目負責人團隊在前期科研過程中獲取和積累的大量以蝙蝠和鼠為主的野生動物樣本以及病毒病原數據,按照科學大數據工程的標準規範、服務體系進行系統的加工和整理,建設野生動物攜帶病毒病原特色數據庫;通過服務網站實現生物資源和信息的綜合管理及信息共享,建成穩定的技術支撐和服務隊伍,以發揮該科學數據資源的科學和應用價值。
在此前,雖然國內外已有多個病毒病原相關的數據庫,如The Database of Bat-associated Viruses(http://www.mgc.ac.cn/DBatVir/ ),以及病毒資源數據庫(http://www.viruses.nsdc.cn/vri.jsp )等,但這些數據庫/集卻是以病毒為主體,只關注某個特定的病原或者特定物種攜帶的病毒種類,並不涉及病毒在野生動物群體間的分布與流行,也與時間上的跨度與季節性流行分布的特性無關。本項目的野生動物病毒病原數據庫在這些病毒病原數據庫的基礎上,有效融入了病毒流行性分布與調查的相關信息,可對項目負責人關注的野生動物樣品採集區的病毒和病原的溯源、分布以及流行情況提供有利的信息支撐。
目前,本項目整體收集整理加工的蝙蝠和鼠源樣本數據達2萬多條,數據覆蓋多個國家以及中國的多個省市地區。通過建設野生動物病毒病原數據庫服務平台,實現了後台數據管理和前台數據服務各項功能,已經初步具備對外提供數據服務的能力。項目組制定了相關的數據加工審核流程和規範的病毒病原元數據描述規範,並依託中國科技網武漢分中心實現了數據庫和平台持續有效服務的目標。
1 數據採集和處理方法
[編輯]本數據集的數據一部分來源於項目負責人在科研過程中獲取和積累的大量蝙蝠和鼠樣本以及病毒病原數據,另一部分來源於國外權威機構公開發布的病毒數據庫/數據集(http://www.mgc.ac.cn/DBatVir/ ,http://www.mgc.ac.cn/DRodVir/ )。針對前一部分數據,按照以下1.1和1.2中的內容處理。後面來源的一部分數據,依據設計的數據元格式整合到本庫中,最終建立由蝙蝠樣品病毒病原庫和鼠樣品病毒病原庫共同組成的野生動物攜帶病毒病原特色數據庫(以下簡稱BatVirus系統)。
1.1 野生動物病毒樣品採集和處理
[編輯]1.1.1 樣品採集
[編輯]蝙蝠動物樣品均由專業實驗人員採集,樣品類型具體包括:糞便樣品,肛、咽拭子,以及對蝙蝠進行解剖所採集的心、肝、脾、肺、腎、腸、腦等組織樣品。其中糞便樣品通過隔夜拾取的方法採集,樣品採集後立即置於液氮保存[1]。以上採集的樣品都置於實驗室−80℃冰箱長期保存。同時採集樣品地理信息及物種形態學信息。
1.1.2 RNA提取
[編輯]對野生動物樣品進行解凍渦旋離心處理,對野生動物的組織進行低溫研磨離心處理取上清,用Qiagen公司購買的病毒核酸提取試劑盒,並根據試劑盒中提供的方法對樣本中的病毒核酸進行提取。
1.1.3 病毒數據獲取
[編輯]按照ICTV(The International Committee on Taxonomy of Viruses)分類,依據文獻中報道的各個病毒科的Pan-PCR(Pan-Polymerase Chain Reaction)方法[2][3]來對蝙蝠和鼠源樣品的病毒核酸進行檢測,對目的條帶進行一代測序,在NCBI(https://www.ncbi.nlm.nih.gov/ )中使用blast(Basic Local Alignment Search Tool)工具進行在線比對,從而確定樣品攜帶的病毒種類。
1.2 數據加工與入庫
[編輯]BatVirus系統根據蝙蝠和鼠源樣品採集、檢測及保藏過程中產生的數據,建立了標準的元數據描述規範,樣品信息和檢測病毒信息依據元數據描述規範進行組織並通過系統進行標準化的攝入。在數據加工過程中,對數據採樣獲取的數據依據制定的元數據描述規範設計了樣品和病毒數據模板,通過對數據的整理加工,形成最終的樣品和病毒數據表,利用BatVirus系統中的數據攝入功能存儲到數據庫中。在數據管理過程中,BatVirus系統分別建立了蝙蝠和鼠源樣品數據管理模塊和病毒病原數據管理模塊,同時,在兩類數據間建立了數據關聯。每個模塊的數據錄入、校驗、存儲均由系統統一控制,規範數據的格式和內容,確保數據錄入的準確性。
2 數據樣本描述
[編輯]數據樣本以已發表的蝙蝠樣品病毒數據為例。其記錄的信息包括樣品ID,樣品組織類型,動物類型,來源物種,物種分子鑑定,收集日期,國家,省份,城市,GPS信息,是否高通量測序,是否病毒分離,出版,備註,檢測方法,病毒名稱,檢測結果,blast結果,病毒分類,病毒序列,相似度,序列長度,序列編碼的基因(表1)。
表1 蝙蝠樣品病毒數據展示
數據元名稱 | 示例 |
---|---|
樣品ID | 162387A |
樣品組織類型 | Anal |
動物類型 | 蝙蝠 |
來源物種 | Rousettus leschenaultii |
物種分子鑑定 | Rousettus sp. |
收集日期 | 2016-08-21 |
國家 | China |
省份 | Yunnan |
城市 | Miaoxin village, Mengna county, Sipsongpanna |
GPS信息 | 101.51944,21.78127 |
是否高通量測序 | No |
是否病毒分離 | No |
出版 | Luo Y, Li B, Jiang RD, et al. Virol Sin. 2018;33(1):87–95. doi:10.1007/s12250-018-0017-2 |
備註 | |
檢測方法 | PCR-based |
病毒名稱 | Coronaviridae |
檢測結果 | Positive |
blast結果 | btcov HKU9 |
病毒分類 | HKU9 |
病毒序列 | 詳見參考文獻 |
相似度 | 94% |
序列長度 | 398bp |
序列編碼的基因 | Partial RdRp |
3 數據質量控制和評估
[編輯]本數據庫的蝙蝠源和鼠源樣品數據主要來源於實驗室樣本採集保藏工作的各個環節。首先制定了針對蝙蝠和鼠源樣本採集保藏的標準規範,如由專業實驗員制定的樣本採集方案,明確規定了採集過程中產生的各個數據元,如樣品ID編寫、收集地點、GPS信息等。
其次在樣品處理過程中,提取的核酸的濃度可以通過NanoDrop ND-1000分光光度計進行測定,260/280的比率應該在1.8–2.1範圍內。對於PAN-PCR擴增得到的病毒陽性條帶進行Sanger法測序,通過ABI文件對峰值圖質量進行控制,對於不可信的序列,進一步克隆測序,以得到可信度高的序列,其中部分病毒相關序列已上傳至NCBI(美國國立生物技術信息中心)中。
在BatVirus系統數據庫設計階段,利用數據字典對元數據描述信息進行規範化管理,有效把控錄入數據的質量。數據字典是系統數據模型中各類數據描述的集合,例如在病毒名稱字典中,我們規範整理出各種標準的病毒名稱字典數據。在實際應用中,用戶在通過數據模板錄入數據或者在平台上直接錄入數據時,通過選擇標準的病毒名稱,以達到標準病毒名稱規範輸入的目的。
BatVirus系統存儲的蝙蝠和鼠源動物樣品和病毒病原數據均經過嚴格審核,每個模塊的數據均通過人工審定確認,確保將錯誤率控制在1%以下。通過一系列數據質量控制手段,實現了數據的有效管理,數據質量得到較大的提升,有效支持了蝙蝠和鼠來源的病毒病原的相關研究工作。
4 數據價值
[編輯]本數據庫的建立基於項目負責人長期科研過程中積累的大量蝙蝠和鼠來源樣本和病毒數據,來源可靠,結果真實可信。結合專業的數據獲取和管理的技術手段,對國內外相關數據集進行整合,實現蝙蝠和鼠來源的病毒病原大數據的集合。給病毒在野生動物間的流行、跨種傳播的研究提供了可靠的平台。
5 數據使用方法和建議
[編輯]本數據庫主要通過http://batvirus.whiov.ac.cn/ (或http://www.sciencedb.cn/dataSet/handle/768 )提供web數據服務。用戶可以在平台上,通過物種樣品庫和病毒病原庫直接瀏覽所有可供開放獲取的樣品信息和病毒病原信息。同時,用戶可以在檢索框中輸入物種名稱、樣品名稱、物種分布國家等進行檢索,或者輸入病毒名稱進行物種攜帶病毒相關信息的檢索查詢。數據管理員可以通過賬號密碼登錄數據庫後台管理模塊,基於規範的數據模版,利用數據上傳功能,將最新的病毒數據信息上傳並導入到數據庫中。由於部分數據(指含有未公開發表的病毒序列,病毒序列未上傳至NCBI,以及不能公布樣品採集地的野生動物樣本信息)的使用權限問題,如果用戶需要對這部分數據進行訪問和使用,可以通過聯繫本數據庫相關管理人員,通過身份審核認證獲取平台的登錄賬號密碼,登錄平台使用相關數據。數據的保密時限以數據全部發表為限。
參考文獻
[編輯]- ↑ GE X , LI Y, YANG X, et al. Metagenomic analysis of viruses from bat fecal samples reveals many novel viruses in insectivorous bats in China[J]. Journal of Virology, 2012, 86(8): 4620-4630.
- ↑ POON L L M , CHU D K W , CHAN K H , et al. Identification of a novel coronavirus in bats[J].Journal of Virology,2005, 79(4): 2001-2009.
- ↑ TONG S X, WANG CHERN S W, LI Y, et al. Sensitive and Broadly Reactive Reverse Transcription-PCR Assays To Detect Novel Paramyxoviruses[J]. Journal of Clinical Microbiology, 2008, 46(8): 2652–2658.