化學藥物數據集

化學藥物數據集
作者：徐挺軍　趙英莉　李英勇
2019年3月22日

本作品收錄於《中國科學數據》

徐挺軍, 趙英莉, 李英勇. 化學藥物數據集[J/OL]. 中國科學數據, 2019, 4(1). (2018-11-22). DOI: 10.11922/csdata.2018.0061.zh.

摘要&關鍵詞

摘要：通過收集書籍手冊中的化學藥物研究成果信息，對收集的藥物數據信息進行分類匯總和規範化處理，採用化合物唯一標識法集成藥物化合物結構數據，利用數據採集規範和數據抽查回溯手段控制數據質量，通過算法程序保證數據集中關鍵數據項的正確率，最終形成化學藥物數據集。本數據集包括了藥物基礎數據和藥物化合物數據，共計1060條。化學藥物數據集可以為新藥研發、藥物改良、科研教育等提供數據支持。

關鍵詞：藥物數據；化學藥物；藥物化合物；新藥研發

Abstract & Keywords

Abstract: This study collected chemical drug data from book manuals. The collected data were then classified, summarized and standardized. Structured data of the drug compounds were integrated by using the method of compound unique identification. For quality control, we developed collection specifications and methods for data sampling and backtracking, which, coupled with algorithm programs, ensured the accuracy of the key data items. The dataset contains 1060 records that fall into two subsets: one for basic drug data and the other for drug compound data. This dataset provides data support for drug development, drug improvement, as well as relevant research and education, etc.

Keywords: drug data; chemical drugs; drug compounds; drug development

數據庫（集）基本信息簡介

數據庫（集）名稱	化學藥物數據集
數據作者	徐挺軍、趙英莉、李英勇
數據通信作者	徐挺軍（xutingjun@sioc.ac.cn）
數據時間範圍	1985–2001年
地理區域	世界各國
數據量	5.44 MB
數據格式	*.MDB
數據服務系統網址	http://www.sciencedb.cn/dataSet/handle/657
基金項目	中國科學院信息化專項科學大數據工程（XXH135）、上海市化學化工數據共享服務平台（18DZ2294000）
數據庫（集）組成	數據集由2部分數據組成：1. 藥物基礎數據（包括藥物類型、名稱、性狀、製法、用途、生產企業等）；2. 藥物化合物數據（包括化合物登錄號、CA登記號、化合物名稱、分子式、分子量、化學結構文件等）。

Dataset Profile

Title	A dataset of chemical drugs
Data corresponding author	Xu Tingjun(xutingjun@sioc.ac.cn)
Data authors	Xu Tingjun, Zhao Yingli, Li Yingyong
Time range	1985–2001
Geographical scope	Worldwide
Data volume	5.44 MB
Data format	*.MDB
Data service system	http://www.sciencedb.cn/dataSet/handle/657
Sources of funding	CAS informatization project during the Thirteenth Five-Year Plan (XXH135); Shanghai Chemistry & Chemical Industry Data Platform(18DZ2294000)
Dataset composition	This dataset consists of two parts of data, one for basic drugs (including their type, name, properties, preparation, application, manufacturer, etc.) and the other for drug compounds (including their registration number, CA registration number, name, molecular formula, molecular weight, chemical structure, etc.).

引言

化學藥物是當今世界占比最高的藥物來源，其數量眾多、研發活躍、發展迅速。但是，我國化學製藥行業嚴重缺乏競爭能力，相比於其他發達國家的醫藥產業，具有技術創新能力低、研發投入少、仿製藥物占比高等弱點^[1]。藥物研發成本高、周期長、技術保護等因素制約着我國合成藥物的創新和發展，如何能準確地找出突破點和應對方法是整個醫藥產業鏈值得深思的問題。

藥物化學家通過研究現有藥物化合物明確的靶標結構和物性活性數據，基於化學原理，根據藥物的化學結構特徵、合成方法等，構建新的藥物化學有效結構

類型或者新的藥物合成路徑，進行藥物模擬創新，成為突破現階段我國藥物創新困境和瓶頸的一個方法^[2]。對於原創新藥研發投入高、失敗率高等問題，研究現有藥物的構效關係，發現現有藥物新的用途或者新的定位，能夠在一定程度上提升新藥研發的成功率，降低藥物研發成本，加快臨床急需用藥的上市^[3]。

通過收集國內外已經上市的藥物以及有發展潛力、尚在研發中的新藥等現有藥物的基礎數據和藥物化合物的數據，對數據進行加工和規範化處理，形成一定規模和範圍內的化學藥物數據集，涵蓋藥物的物性活性、製法合成路徑、化合物結構等信息數據，從而從數據的角度促進藥物研發等科研活動的進行。

國內《化學專業數據庫》中的藥品數據庫，收集了約9000多種藥品，數據包括藥品的名稱、結構、理化性質、適應症、標準等，由於是多種數據源的整合，存在數據規範不統一、藥物分類不清晰等問題，且沒有藥物製法、生產企業等數據^[4]。世界著名的藥品數據庫DrugBank，最新版本涵蓋了約10000多種藥物，其中化學小分子藥物2000餘種，主要為藥物藥理學數據和藥物靶點數據，數據描述語言為英語^[5]。本文希望通過化學藥物數據集的建設，以小範圍的典型數據源為例，研究化學藥物數據的採集、處理方法和步驟，為建立更加權威、規範、全面的中文化學藥品數據庫打下基礎。

1 數據採集和處理方法

1.1 原始數據來源

化學藥物數據集的原始數據採集自《精細化工產品手冊·藥物》^[6]，原始數據採集後對數據進行規範化加工處理，然後對藥物化合物進行唯一化標識^[7]，獲得藥物化合物的結構信息數據，最終形成化學藥物數據集。

1.2 數據採集

原始數據為手冊書籍，其編寫按用途、藥理和化學結構相結合的方式進行分類。對於有共同藥理作用的藥物，如擬腎上腺素和抗腎上腺素藥物、擬膽鹼和抗膽鹼藥物、抗組胺藥物等，分列一章。每章開頭有對該章藥物的簡短說明。每章中再分小類，在小類中將結構相似的藥物歸於一起。同一種藥物有多種用途時，該藥物歸在主要用途一章中。在藥物信息詳細描述段中，均分欄介紹其中文通用名（或常用名）及英文通用名（或常用名）、在美國《化學文摘》上的登錄號、其他名稱、結構式、分子式、相對分子質量、性狀、製法、規格、用途、生產廠家、參考資料等，如圖1所示。

圖片

圖1 原始數據示例

根據以上原始數據類型和特點，設計數據集錄入加工數據表，採用人工輸入的方式，將原始數據書籍中各個信息分別錄入對應的數據項中。數據表以化學藥物作為實體，藥物的分類信息、藥物描述數據、化合物數據、性質數據、生產方法等作為其屬性。由於原始書籍涉及的數據類型眾多，採用一定的輸入規則對數據進行採集，以便後續的數據規範化處理，數據部分採集規則如表1所示。

表1 數據採集規則

序號	規則說明
1	同一類數據中有多個數據的使用「；」分隔，如同一個藥物有多個名稱，多個參考文獻等
2	內容描述中每個自然分段的結尾部分加「$$」
3	如果內容中有表格，在表的起始和結束後各加一個「$T」，表內容的每一項用「/」或「@」（當表的內容中有「/」時）分隔，每一行用「$$」分隔
4	化學結構式中的結構圖不需輸入
5	所有漢字和符號，包括希臘字母按原樣輸入
6	分子式中的數字按普通數字方式輸入，其餘上下標內容使用上標符組「^<」「^>」，和下標符組「^{」「^}」表示，需要用上下標表示的內容置於上標或下標符號組的兩個符號間。例如，「cm-1」應該表示成「cm^<-1^>」
7	熔點（mp）、沸點(bp)、酸鹼度（PH）的數據包含在性狀內容中，需要從中選取，輸入內容包括這些數據的標識。

1.3 數據規範化處理

原始數據經採集後，形成化學藥物加工數據表。其中藥物大類為藥物的主要用途分類，藥物小類為化學結構或者藥理作用部位分類，如抗生素大類中，分β-內酰胺類抗生素、大環內酰胺類抗生素、氨基糖苷類抗生素等小類。根據化學藥物數據集的設計，將加工數據表中的數據進行規範化處理：去除CASRN號中的「-」，將其轉換為數字以便後續的數據處理；設計藥物基礎數據表、藥物化合物數據表，分別如表2、表3所示，並將加工數據表中不同類型的數據分別歸類至相應的數據表中，並以藥物編號YWID作為主鍵鏈接；由於藥物化合物的化學結構大多較為複雜，如採用人工輸入化學結構數據，則需要非常專業的人員耗費相當多的工作時間，且較易出現差錯。化學藥物數據集利用原始數據中較為明確的CASRN號、化合物名稱、分子式等數據，採用化合物唯一化標識方法，根據化合物登錄號SRN直接從化合物參考數據庫中獲取化合物結構信息^[8]，形成藥物基礎數據、藥物化合物數據，得到最終的化學藥物數據集。

表2 藥物基礎數據表

序號	屬性名稱	數據類型	屬性說明
1	YWID	數值	藥物編號
2	YWDL	字符	藥物大類
3	YWXL	字符	藥物小類
4	YWZW	字符	藥物通用名稱
5	YWYW	字符	藥物通用名稱英文
6	XZ	字符	性狀
7	RD	數值	熔點
8	FD	數值	沸點
9	PH	數值	酸鹼度
10	ZF	字符	製法
11	YT	字符	用途
12	SCCJ	字符	生產企業
13	CKWX	字符	參考文獻

表3 藥物化合物數據表

序號	屬性名稱	數據類型	屬性說明
1	ID	數值	序號
2	YWID	數值	藥物編號
3	SRN	數值	化合物登錄號
4	CASRN	字符	CA登記號
5	HHWM	字符	化合物名稱
6	QTMC	字符	化合物別名
7	MF	字符	分子式
8	MW	數值	分子量
9	Mol	字符	化學結構文件

2 數據樣本描述

化學藥物數據集涵蓋了藥物的基礎信息數據和藥物化合物數據，分別存儲於藥物基礎數據表和藥物化合物數據表。以市面常見的抗高血壓藥物纈沙坦（Valsartan）為例，表4展示了其藥物的基本信息數據，表5展示了其化合物數據，其中化學結構數據為MDL Molfile文件內容，在表中以化學結構圖的形式來描述。

表4 化學藥物數據集藥物基礎數據示例

序號	數據類型	數據示例
1	藥物編號	374
2	藥物大類	心腦血管藥物
3	藥物小類	抗高血壓藥
4	藥物通用名稱	纈沙坦
5	藥物通用名稱英文	Valsartan
6	性狀	從二異丙醚結晶，熔點116–117℃。
7	熔點	116–117℃
8	沸點	-
9	酸鹼度	-
10	製法	2』-氰基聯苯-4-醛(I)和L-纈氨酸甲酯進行還原胺化，得到的化合物(II)再用戊酰氯進行酰化，層析後得到化合物(III)。然後和Bu3SnN3進行反應，引入四唑，再水解即得產物。
11	用途	抗高血壓藥物。非肽血管緊張素II AT1-受體拮抗劑。用於治療高血壓。
12	生產廠家	瑞士Ciba開發，1996年在德國上市。
13	參考文獻	[1] Merck Index 12th：10051；[2] Buehlmayer P，Ostermayer F and Sehmidlln T．Aeyl compounds．EP 443983，1991-08-28；$$[3]Buehlmayer P，Ostermayer F and Schmidlin T．Acyl compounds．US 5399578，1995-03-21.

表5 化學藥物數據集藥物化合物數據示例

序號	數據類型	數據示例
1	序號	382
2	藥物編號	374
3	化合物登錄號	6137969
4	CA登記號	137862-53-4
5	化合物名稱	N-(1-氧戊基)-N-[[2』(-(1H-四唑-5-基)[1,1』(-聯苯]-4-基]甲基]-L-纈氨酸；N-(1-Oxopentyl)-N-[[2』-(1H-tetrazol-5-y1)[1,1』-biphenyl]-4-y1]methyl]-L-valine
6	化合物別名	CGP-48933：Diovan
7	分子式	C24H29N5O3
8	分子量	435.53
9	化學結構（mol 文件）	圖片

3 數據質量控制和評估

化學藥物數據集為保證數據質量，在採集數據時制定了數據採集規範（見本文1.2）。同時採用抽檢的方式，隨機抽選數據記錄進行人工校對。為了解決數據的可追溯性問題，化學藥物數據集在原始數據採集的同時錄入數據來源號，來源號由5位數字編號，前2位數字為來源書籍的章號，第3位數字為節號，後2位數字為數據條目編號。由於工具書籍的編排具有嚴格的順序性，因此可針對數據集的連續性進行校驗。在後續的數據處理中發現的數據遺漏或者數據質量問題，根據數據來源號對照原始數據得到了修正。

對數據集中的關鍵數據項，進行了程序校驗。根據美國化學文摘社（CAS）發布的CA登記號有效性驗證規範^[9]，一個CASRN最多有10位數字，由連字符「-」分為三個部分，從左邊起的第一部分的數字為2到7位數，第二部分數字為2位數，最後一部分由1位數組成。最後的一位數是校驗碼，數據集採用程序軟件使用一個標準計算方法來計算CAS登記號是否為一個有效號碼。

數據集中的化合物分子式和分子量數據，通過了分子式處理技術驗證其精確性。如圖2所示，程序讀入分子式字符串FormulaString後解析其字符特徵，比如分子式中的「（）」「.」等，以此判斷該分子式是否為規範的表達，並且將分析所得的結果存入分子式特徵變量FormulaFeature中；根據該分子式的類型，截取其中的分子式單元字符串，分別存入分子式單元字符串變量FormulaUnit中，普通的化合物分子式單元字符串為一個，晶體和有機鹽分子式單元字符串為兩個或多個，聚合物分子式單元為括號中單體分子式的字符串；依次遍歷分子式單元字符串FormulaUnit，分別解析出元素符號和元素數量存入元素變量Atom和元素數量變量Amount中，並且根據元素的原子量和元素數量計算該分子式基本單元的分子量，並且累加存入化合物分子量變量MolecularWeight；最後輸出化合物分子式特徵數據FormulaFeature和化合物分子量數據MolecularWeight。根據分子式數據處理程序所得的結果來驗證數據集中的分子式是否符合規範，驗證分子量數據是否正確。

圖片

圖2 分子式數據處理程序算法

4 數據使用方法和建議

化學藥物數據集使用MDB格式存儲，使用者可以安裝Microsoft Office Access®軟件，打開數據集並且對數據集進行查看、檢索、數據挖掘等操作^[10]。化學藥物數據集中的數據描述具有一定的專業性，為了保證數據格式的統一性，數據中採用某些符號和縮寫來代替相應的專業名詞，符號和縮寫說明如表6所示。

表6 化學藥物數據集符號和縮寫說明表

序號	縮寫符號	說明
1	[α]20 D	旋光度，下標為光源，上標為溫度
2	n20 D	折射率，下標為光源，下標為溫度
3	d23 4	相對密度，指一定體積的該物質在23℃下的質量與等體積純水在4℃下的質量之比
4	E1% 1cm	消光度，下標為槽的厚度，上標為樣品的濃度
5	ε	分子消光係數
6	mp	熔點
7	bp	沸點
8	pH	酸鹼度
9	pKa	電解質電離常數倒數的對數
10	Ac	乙酰基
11	Bz	苯甲酰基
12	Bzl	苄基
13	Bu	丁基
14	Et	乙基
15	Me	甲基
16	Ph	苯基
17	Pr	丙基
18	Ts	對甲苯黃酰基
19	7-ACA	7-氨基頭孢烷酸
20	7-ACT	7-氨基頭孢三嗪
21	6-APA	6-氨基青黴烷酸
22	DCC, DCCD	二環己基二亞胺
23	DMA	N，N-二甲基乙酰胺
24	DMF	N，N-二甲基甲酰胺
25	DMSO	二甲基亞碸
26	THF	四氫呋喃
27	IR	紅外光譜
28	UV	紫外光譜
29	USP	美國藥典
30	DE	德國專利
31	EP	歐洲專利
32	GB	英國專利
33	JP	日本專利
34	US	美國專利
35	WO	世界專利

相對於工具書或者書籍只能根據目錄和中英文索引來遊覽和檢索，化學藥物數據集的使用更為便捷和靈活。除了可以根據藥物名稱、性狀、用途、製法等信息對藥物進行檢索和歸類外，還可以利用數據集中藥物化合物的化學結構信息進行量化計算。化學藥物數據集包含的藥物都有較為明確的化學結構，對於研究藥物靶點信息、藥物作用基團的構效關係等具有較好的數據支持作用，從而從數據角度為創新藥物研發提供幫助。數據集中的信息描述言簡意賅，收集的藥物大都是已經市場化或廣為人知的經典產品，適用於科研教學和大眾科普教育等領域。化學藥物數據集所收集藥物的數據範圍和數據量有限，但其建設方法和步驟具有一定的廣譜性，後續可以本文所述加工處理方法為例，擴展到同領域其他數據源的加工處理，如《中國藥典》《新編藥物學》，補充增加化學藥物數據集最新的數據源，進一步擴大數據覆蓋範圍。

參考文獻

↑ 李廣乾. 促進我國化學製藥行業技術創新的政策研究[J]. 現代產業經濟, 2013 (z1): 48-56.
↑ 孫大檸. 談當今我國合成藥物的創新研製與開發——訪中國醫學科學院藥物研究所郭宗儒研究員[J]. 藥學進展, 2010, 34(1): 1-6.
↑ 王可鑑, 石樂明, 賀林, 等. 中國藥物研發的新機遇:基於醫藥大數據的系統性藥物重定位[J]. 科學通報, 2014, 59(18): 1790-1796.
↑ 藥品數據庫[EB/OL]. http://www.organchem.csdb.cn/scdb/main/cdntd_introduce.asp.
↑ DrugBank version 5.1.1[EB/OL]. https://www.drugbank.ca/.
↑ 周學良. 精細化工產品手冊.藥物[M]. 北京: 化學工業出版社精細化工出版中心, 2003.
↑ 陳維明, 朱翠娣, 趙英莉, 等. 論數據唯一標識與化學數據的集成[C]. 第九屆科學數據庫與信息技術學術研討會, 廣西桂林, 2008.
↑ 趙英莉, 徐衍波, 李英勇, 等. 化合物參考數據庫的設計[C]. 第十屆科學數據庫與信息技術學術研討會, 貴州貴陽, 2010.
↑ American Chemical Society. Check Digit Verification of CAS Registry Numbers[EB/OL]. [2018-10-08]. http://www.cas.org/content/chemical-substances/checkdig.
↑ 紀澍琴, 李連德, 常耀輝. Access數據庫應用基礎教程[M]. 北京: 北京郵電大學出版社, 2013.

數據引用格式

徐挺軍, 趙英莉, 李英勇. 化學藥物數據集[DB/OL]. Science Data Bank, 2018. (2018-10-08). DOI: 10.11922/sciencedb.657.

本作品在「知識共享-署名 4.0 國際」協議下發表。

Public domainPublic domainfalsefalse

[ref1-1] 李廣乾. 促進我國化學製藥行業技術創新的政策研究[J]. 現代產業經濟, 2013 (z1): 48-56.

[ref2-2] 孫大檸. 談當今我國合成藥物的創新研製與開發——訪中國醫學科學院藥物研究所郭宗儒研究員[J]. 藥學進展, 2010, 34(1): 1-6.

[ref3-3] 王可鑑, 石樂明, 賀林, 等. 中國藥物研發的新機遇:基於醫藥大數據的系統性藥物重定位[J]. 科學通報, 2014, 59(18): 1790-1796.

[ref4-4] 藥品數據庫[EB/OL]. http://www.organchem.csdb.cn/scdb/main/cdntd_introduce.asp.

[ref5-5] DrugBank version 5.1.1[EB/OL]. https://www.drugbank.ca/.

[ref6-6] 周學良. 精細化工產品手冊.藥物[M]. 北京: 化學工業出版社精細化工出版中心, 2003.

[ref7-7] 陳維明, 朱翠娣, 趙英莉, 等. 論數據唯一標識與化學數據的集成[C]. 第九屆科學數據庫與信息技術學術研討會, 廣西桂林, 2008.

[ref8-8] 趙英莉, 徐衍波, 李英勇, 等. 化合物參考數據庫的設計[C]. 第十屆科學數據庫與信息技術學術研討會, 貴州貴陽, 2010.

[ref9-9] American Chemical Society. Check Digit Verification of CAS Registry Numbers[EB/OL]. [2018-10-08]. http://www.cas.org/content/chemical-substances/checkdig.

[ref10-10] 紀澍琴, 李連德, 常耀輝. Access數據庫應用基礎教程[M]. 北京: 北京郵電大學出版社, 2013.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]