實驗室化學品純化方法數據集

維基文庫,自由的圖書館
實驗室化學品純化方法數據集
作者:李英勇 趙英莉
2019年12月2日
本作品收錄於《中國科學數據
李英勇, 趙英莉. 實驗室化學品純化方法數據集[J/OL]. 中國科學數據, 2019. (2019-11-29). DOI: 10.11922/csdata.2019.0072.zh.


摘要&關鍵詞[編輯]

摘要:通過收集書籍手冊中的實驗室化學品純化方法數據和相關的理化性質數據,對收集得到的原始數據進行分類匯總和規範化處理,並利用數據採集規範和數據抽查回溯手段控制數據質量,通過軟件算法保證數據集中關鍵數據項的正確性,最終建成實驗室化學品純化方法數據集。本數據集收錄了實驗室化學品的純化方法數據和理化性質數據,共計5747條。實驗室化學品純化方法數據集的建成,可以為化學及生物化學實驗科研人員進行實驗研究提供有益的幫助。

關鍵詞:實驗室;化學品;純化;理化性質

Abstract & Keywords[編輯]

Abstract: By collecting data on purification methods for laboratory chemicals and related physical and chemical properties data from the manual books, then the data was classified, summarized and standardized. For quality control, we developed collection specifications and methods for data sampling and backtracking, which, coupled with algorithm programs, ensured the accuracy of the key data items. The dataset contains 5,747 records that fall into two subsets: one for purification method data and the other for physical and chemical properties data. The establishment of the dataset of purification methods for laboratory chemicals can provide useful help for the chemical and biochemical experimental researchers.

Keywords: laboratory; chemicals; purification; physical and chemical properties

數據庫(集)基本信息簡介[編輯]

數據庫(集)名稱 實驗室化學品純化方法數據集
數據通信作者 李英勇(liyingyong@sioc.ac.cn)
數據作者 李英勇、趙英莉
數據時間範圍 1912–2006年
地理區域 世界各國
數據量 2.54 MB
數據格式 *.xls
數據服務系統網址 http://www.sciencedb.cn/dataSet/handle/897http://www.organchem.csdb.cn/scdb/main/purechem_introduce.asp
基金項目 中國科學院信息化建設專項(XXH13505-03-103);國家基礎科學數據共享服務平台項目(DKA2017-12-02-05);上海市科委項目(18DZ2294000)。
數據庫(集)組成 本數據集由1個EXCEL文件組成,包括一個工作表LabChemPurification:共有5747條記錄,包括實驗室化學品的ID號、類別、名稱、CASRN號、分子式、分子量、凝固點、溶點、沸點、密度、折射率、旋光度、比色指數、電離常數、純化方法、來源文獻和其他性質數據。

Dataset Profile[編輯]

Title A dataset of purification methods for laboratory chemicals
Data corresponding author Li Yingyong(liyingyong@sioc.ac.cn)
Data authors Li Yingyong, Zhao Yingli
Time range 1912–2006
Geographical scope Worldwide
Data volume 2.54MB
Data format *.xls
Data service system <http://www.organchem.csdb.cn/scdb/main/purechem_introduce.asp> <http://www.sciencedb.cn/dataSet/handle/897>
Sources of funding CAS informatization project during the Thirteenth Five-Year Plan – 「Key Database Construction and Application Services for the Discipline of Chemistry」 (XXH1350303-103); National R&D Infrastructure and Facility Development Program of China, Fundamental Science Data Sharing Platform (DKA2017-12-02-05); Shanghai Chemistry & Chemical Industry Data Platform (18DZ2294000).
Dataset composition The dataset consists of 1 part of data, a total of one EXCEL file, including a worksheet LabChemPurification: a total of 5747 records, including the laboratory chemicals』ID,class, name, CASRN number, formula, molecular weight, freezing point, melting point, boiling point, density, refractive index, Optical rotation, coloration index, ionization constant, purification method, sources of literature and other property data.


引 言[編輯]

化學家和生物化學家在進行科學實驗研究過程中,往往會遇到實驗用試劑是否需要純化,以及如何純化的問題。雖然大多數實驗室化學品對於科學技術研究的大多數目的都能滿足純度要求,並能獲得令人滿意的結果,但對於某些研究來說,所用化學品的進一步純化是很有必要的。特別是隨着半導體技術、特殊合金製備以及高生物活性物質的分離等方面的快速發展,對實驗用化學品純度的要求越來越高。而有價值的目標試劑純化方法數據往往分散於科技期刊文獻或實驗類手冊書籍中,並沒有相關的開放數據集可供使用,從手冊書籍中查找獲取數據不夠方便,而且書籍上的數據內容無法及時補充完善。

針對化學家與生物化學家們對實驗用化學品純化的這種需求,通過收集整理專業手冊書籍中的實驗室化學品純化方法數據和相關的理化性質數據,建設完成了實驗室化學品純化方法數據集。藉助此純化方法數據集,化學家與生物化學家在進行具體科學實驗研究時可以方便地查詢實驗用試劑是否需要純化,如何純化,以及化學品的一系列物理化學參數。用戶也可以隨時補充從最新期刊文獻中獲取的實驗室化學品純化方法數據和理化性質數據,以進行橫向比較研究。

1 數據採集和處理方法[編輯]

1.1 原始數據來源[編輯]

實驗室化學品純化方法數據集的原始數據採集自《實驗室化學品純化手冊[1],原始數據按採集要求採集後,對採集數據進行了規範化處理,以及質量校驗,最終得到實驗室化學品純化方法數據。

1.2 數據採集[編輯]

原始數據為手冊書籍,先是介紹了實驗室化學品常用的物理純化技術和化學純化技術,以及化學品純化方法的未來發展方向,然後具體講述了各種化學品的純化方法,分為有機化學品、無機化合物、金屬有機化學品以及生物化學品。而這些純化方法條目長度不等,有的只有一行,有的約有一頁,甚至更多,如乙腈、苯、乙醇和甲醇等。有些條目還包括了可能的污染物和儲存條件等信息。大多數條目里插入了與物理性質有關的更多的信息數據,比如熔點、沸點、折射率、密度、比旋光度(針對適用的化合物)和紫外吸收數據,部分條目有化合物分子量,幾乎所有條目都附有化合物的CAS登錄號。原始數據如圖1所示。


圖片

圖1 原始數據示例


根據原始數據的這些類型和特點,設計了實驗室化學品純化方法數據集錄入加工數據表,採用人工錄入的方式,將原始手冊中各實驗室化學品的純化方法數據、理化性質數據和參考文獻數據等分別錄入加工數據表對應的數據項中。數據表以化合物作為實體,其物理化學性質數據、純化方法數據和參考文獻數據作為其屬性。制訂了具體的數據採集錄入規則:

(1)段落開頭部分若是粗體字,說明是一個新化合物條目;若段落開頭不是粗體字,則此段內容屬於上一段的化合物,在開頭部分加入「$$」段落標識,內容併入上一段。

(2)新化合物條目開頭的粗體字部分是化合物名稱,若此部分結尾處有括號,則括號前數據是化合物俗名,括號中數據是化合物系統名稱;

(3)化合物名稱後中括號部分是化合物的CASRN號;

(4)CASRN號後面的粗體字部分是化合物的分子式和理化性質數據,各項間以逗號分隔,並以句號結尾。其中:「M」字符開頭者是化合物分子量數據;「m」字符開頭者是化合物溶點數據;「b」字符開頭者是化合物沸點數據;「pK」字符開頭者是可電離化合物的電離常數數據,若「pK」有上標,則上標數字是溫度值,若沒有上標,說明是室溫(約15–25℃),若下標有「Est」字符,說明這是電離常數估計值;「[α]」字符開頭者是化合物旋光度數據,其上標是溫度,下標是光源;「n」字符開頭者是化合物折射率數據,其上標是溫度,下標是光源。所有數據項分別填入數據採集表的對應列中,若沒有對應列,則填入「QT」列。

(5)化合物理化性質數據之後的部分是化合物的具體純化方法數據,其中的中括號部分是此純化方法的來源文獻信息,此部分可能存在多個純化方法和多個來源文獻信息。

1.3 數據規範化處理[編輯]

原始數據經採集錄入整理後,得到實驗室化學品純化方法錄入加工數據表。根據數據集的設計,將錄入加工數據表中的數據項進行規範化處理:去除CASRN號中的「-」字符,將其由字符串轉換為整型數字,以便後續的數據校驗處理;設計實驗室化學品純化方法數據表,數據表的具體結構如表1所示,並將錄入加工數據表中不同類型的數據項分別歸入數據表相應列中,並添加流水號作為主鍵。


表1 實驗室化學品純化方法數據表

序號 屬性名稱 數據類型 屬性說明
1 ID 數值 流水號,主鍵
2 HXPLX 字符 化學品類別
3 HXPMC 字符 化學品名稱
4 CASRN 字符 化學品CASRN號
5 MF 字符 分子式
6 MW 字符 分子量
7 NGD 字符 凝固點
8 RD 字符 溶點
9 FD 字符 沸點
10 XDMD 字符 密度
11 ZSL 字符 折射率。以「^<」和「^>」括起來的部分是上標;以「^{」和「^}」括起來的部分是下標。
12 WZ 字符 旋光度。以「^<」』和「^>」括起來的部分是上標;以「^{」和「^}」括起來的部分是下標。
13 QT 字符 其他性質數據
14 CI 字符 比色指數
15 DLCS 字符 電離常數。以「^<」和「^>」括起來的部分是上標;以「^{」和「^}」括起來的部分是下標。
16 SM 字符 純化方法。其中,字符「$$」是新行行首標誌。
17 CKWX 字符 來源文獻。其中,字符「$」是行首標誌,字符「$$;」是行尾標誌。


3 數據樣本描述[編輯]

實驗室化學品純化方法數據集主要包括實驗室化學品純化方法數據表,表中存儲了實驗室化學品的各項理化性質數據、純化方法數據和來源文獻信息。具體是實驗室化學品的類別、名稱、CASRN號、分子式、分子量、凝固點、溶點、沸點、密度、折射率、旋光度、比色指數、電離常數、純化方法和來源文獻數據,其屬性名稱和數據示例如表2所示:


表2 實驗室化學品純化方法數據示例

序號 屬性名稱 屬性說明 範例
1 ID 流水號 1
2 HXPLX 化學品類別 有機化學品
3 HXPMC 化學品名稱 吖丁啶(氮雜環丁烷)
4 CASRN 化學品CASRN號 503-29-7
5 MF 分子式 C6H6O
6 MW 分子量 57.1
7 NGD 凝固點 1.3℃
8 RD 溶點 17.3℃
9 FD 沸點 61–62℃
10 XDMD 密度 d 0.846
11 ZSL 折射率 n^<20^>^{D^}1.4575
12 WZ 旋光度 [α]^{546^}-123°(c 10,H20,24h後)
13 QT 其他性質 閃點−41.8℃
14 CI 比色指數 45160
15 DLCS 電離常數 pK^<25^> 11.29
16 SM 純化方法 本品用水(活性炭脫色)結晶成黃色針狀晶體。如果其中含有游離酸,那麼用二氯甲烷溶解,再用飽和碳酸鈉、鹽水洗滌,之後用硫酸鎂乾燥,蒸發最後將殘留物重結晶。游離酸的熔點是203–204℃(dec)[紫外:Brown和Mason.J Chem Soc 3443 1956],其pK^{1^}<1,pK^{2^}3.70。銨鹽熔點232℃(dec)(NNiN溶液重結晶),氨基化合物的熔點239.2℃(用水重結晶)[Ellingson et al.J Am Chem Soc 67 1711 1945]。
17 CKWX 來源文獻 $ASearles et al. J Am Chem Soc 78 4917 1956$$


4 數據質量控制和評估[編輯]

為保證實驗室化學品純化方法數據集的數據質量,在原始數據採集錄入過程中制定了數據採集規範。同時採用抽撿的方式,隨機抽取數據記錄進行人工校對,以控制數據錄入質量。為了解決數據的可追溯性問題,在原始數據採集時同時錄入數據來源號,來源號由條目所在頁碼組成。由於工具書籍的編排具有嚴格的順序性,因此可針對數據集的連續性進行校驗,在後續的數據處理中發現的數據遺漏或者數據質量問題,數據集根據數據來源號對照原始數據項得到了修正。

對數據集中的關鍵數據項,進行了程序校驗。根據美國化學文摘社發布的CASRN號有效性驗證規範[2],一個CASRN最多有十位數字組成,由連字符「-」分為三部分,從左邊起的第一部分的數字為二到七位數,第二部分數字為兩位數,最後一部分為一個數字。最後一部分是校驗碼,數據集採用程序軟件驗證輸入的CASRN字符串是否為一個有效的CASRN號碼。

對於實驗室化學品純化方法數據集中有化合物分子式和分子量數據的條目,設計了由化合物分子式計算分子量的算法程序,算法考慮了晶體、有機鹽和聚合物分子式的特殊性,對這類分子式進行了特殊處理。最終通過分子式計算得到化合物的計算分子量,並與採集到的錄入分子量進行比對,以驗證採集錄入的分子式和分子量數據的正確性。

手冊結尾有中文名稱索引和CAS索引部分,安排專人將化合物名稱、CASRN號與頁碼的對應信息與採集數據表中的對應信息進行校對,以篩選出人工錄入的錯誤,進一步提高實驗室化學品純化方法數據集的數據質量。

5 數據使用方法和建議[編輯]

實驗室化學品純化方法數據集使用EXCEL格式存儲,使用者可以通過Microsoft Office EXCEL®軟件,打開數據集並且對數據集進行查看、檢索和篩選等操作。數據集的數據描述共計17個子類,分別是化合物的ID號,類別、名稱、CASRN號、分子式、分子量、凝固點、溶點、沸點、密度、折射率、旋光度、比色指數、電離常數、純化方法、來源文獻和其他性質數據,均支持檢索和篩選操作。

化學專業數據庫網站上也提供了實驗室化學品純化方法數據集服務[3],如圖2所示。網站主要提供了三種Web檢索方式:按化合物名稱檢索、按CASRN號檢索和按分子式檢索。另外,網站將此數據集與其他數據集進行了有機整合,可以提供化合物更多的數據服務。


圖片

圖2 實驗室化學品純化方法數據集Web檢索示例


相對於工具書籍只能根據目錄和索引來瀏覽和檢索,實驗室化學品純化方法數據集的使用方法更為便捷和靈活。可以根據待處理化學品的物理性質參數進行檢索和篩選,還可以根據用戶感興趣的純化方法關鍵詞進行篩選和聚類分析。該數據集的信息描述言簡意賅,收集整理的大都是實驗室常用的化學品,可以作為化學和生物化學實驗室科研人員進行實驗研究時的參考數據集。

參考文獻[編輯]

  1. Wilfred L.F.Armarego, Christina L.L.Chai. 實驗室化學品純化手冊[M]. 北京:化學工業出版社,2006.
  2. American Chemical Society. Check Digit Verification of CAS Registry Numbers[EB/OL]. [2018-10-08]. http://www.cas.org/content/chemical-substances/checkdig.
  3. 上海有機所. 化學品純化方法數據庫. [2018-10-08]. http://www.organchem.csdb.cn/scdb/main/purechem_introduce.asp.

數據引用格式[編輯]

李英勇, 趙英莉. 實驗室化學品純化方法數據集[DB/OL]. Science Data Bank, 2019. (2019-11-29). DOI: 10.11922/sciencedb.897.


本作品在「知識共享-署名 4.0 國際」協議下發表。

Public domainPublic domainfalsefalse