<em id="lj1v3"><b id="lj1v3"></b></em>

    <i id="lj1v3"></i>

        <i id="lj1v3"><b id="lj1v3"><progress id="lj1v3"></progress></b></i>

        <video id="lj1v3"></video>
        <video id="lj1v3"></video>

                    <i id="lj1v3"><ol id="lj1v3"><progress id="lj1v3"></progress></ol></i>
                    科學大數據工程 II 區論文(已發表) ? 版本 ZH3 Vol 5 (2) 2020
                    下載
                    實驗室化學品純化方法數據集
                    A dataset of purification methods for laboratory chemicals
                    ?>>
                    : 2019 - 10 - 12
                    : 2020 - 03 - 09
                    : 2019 - 12 - 02
                    : 2020 - 06 - 11
                    极速快三
                    3114 9 0
                    摘要&關鍵詞
                    摘要:通過收集書籍手冊中的實驗室化學品純化方法數據和相關的理化性質數據,對收集得到的原始數據進行分類匯總和規范化處理,并利用數據采集規范和數據抽查回溯手段控制數據質量,通過軟件算法保證數據集中關鍵數據項的正確性,最終建成實驗室化學品純化方法數據集。本數據集收錄了實驗室化學品的純化方法數據和理化性質數據,共計5747條。實驗室化學品純化方法數據集的建成,可以為化學及生物化學實驗科研人員進行實驗研究提供有益的幫助。
                    關鍵詞:實驗室;化學品;純化;理化性質
                    Abstract & Keywords
                    Abstract:?First we collected data on purification methods for laboratory chemicals and related physical and chemical properties data from manual books. Then we classified, summarized and standardized all the data. For quality control, we developed collection specifications and methods for data sampling and backtracking, which, coupled with algorithm programs, ensured the accuracy of the key data items. The dataset contains 5,747 records that fall into two subsets: one for purification method data and the other for physical and chemical properties data. The dataset of purification methods for laboratory chemicals can benefit both chemical and biochemical experimental researchers.
                    Keywords:?laboratory;?chemicals;?purification;?physical and chemical properties
                    數據庫(集)基本信息簡介
                    數據庫(集)名稱實驗室化學品純化方法數據集
                    數據通信作者李英勇(liyingyong@sioc.ac.cn)
                    數據作者李英勇、趙英莉
                    數據時間范圍1912–2006年
                    地理區域世界各國
                    數據量2.75 MB
                    數據格式*.mdb
                    數據服務系統網址http://www.sciencedb.cn/dataSet/handle/897
                    http://www.organchem.csdb.cn/scdb/main/purechem_introduce.asp
                    基金項目中國科學院信息化建設專項(XXH13505-03-103);國家基礎科學數據共享服務平臺項目(DKA2017-12-02-05);上海市科委項目(18DZ2294000)。
                    數據庫(集)組成本數據集由1個ACCESS文件組成,包括一個數據表(LabChemPurification表)和3個檢索窗體(CASRN檢索、名稱檢索和順序瀏覽窗體):共有5747條記錄,包括實驗室化學品的ID號、類別、名稱、CASRN號、分子式、分子量、凝固點、熔點、沸點、相對密度、折射率、旋光度、比色指數、電離常數、純化方法、來源文獻和其他性質數據。
                    Dataset Profile
                    TitleA dataset of purification methods for laboratory chemicals
                    Data corresponding authorLi Yingyong(liyingyong@sioc.ac.cn)
                    Data authorsLi Yingyong, Zhao Yingli
                    Time range1912~2006
                    Geographical scopeWorldwide
                    Data volume2.75MB
                    Data format*.mdb
                    Data service system<http://www.sciencedb.cn/dataSet/handle/897>
                    <http://www.organchem.csdb.cn/scdb/main/purechem_introduce.asp>
                    Sources of fundingCAS informatization project during the Thirteenth Five-Year Plan – “Key Database Construction and Application Services for the Discipline of Chemistry” (XXH1350303-103); National R&D Infrastructure and Facility Development Program of China, Fundamental Science Data Sharing Platform (DKA2017-12-02-05); Shanghai Chemistry & Chemical Industry Data Platform (18DZ2294000).
                    Dataset compositionThis dataset consists of one ACCESS file, including a data table (LabChemPurification table) and three retrieval forms (CASRN retrieval, name retrieval, and sequential browsing forms). There are a total of 5747 records, including the ID,class, name, CASRN number, formula, molecular weight, freezing point, melting point, boiling point, relative density, refractive index, optical rotation, coloration index, ionization constant, purification method, literature sources and other property data of laboratory chemicals.
                    引 言
                    化學家和生物化學家在進行實驗研究時,往往會遇到實驗用化學品是否需要純化,以及如何純化的問題。有些研究對化學品純度要求較低,而有些研究對化學品純度卻有較高的要求,必須對實驗室化學品進行純化,使其理化性質數據達到一定的指標,才能滿足實驗要求。特別是隨著半導體技術、特殊合金制備以及高生物活性物質的分離等方面的快速發展,對化學品純度的要求越來越高。目前,化學品純化方法信息分散于科技期刊和科技手冊中,從期刊手冊中查找數據不夠方便,期刊手冊上的數據內容也無法及時補充完善。此外,也沒有相關的開放數據集可供使用。
                    針對化學家與生物化學家的實驗需求,通過收集整理科技手冊中的實驗室化學品純化方法和理化性質數據,建設完成了實驗室化學品純化方法數據集。通過此純化方法數據集,化學家與生物化學家可以方便地查詢實驗用化學品是否需要純化,如何純化,以及化學品的理化性質數據。用戶也可以隨時補充完善最新的純化方法和理化性質數據,以進行橫向比較研究。
                    1 ? 數據采集和處理方法
                    1.1 ? 原始數據來源
                    實驗室化學品純化方法數據集的原始數據采集自《實驗室化學品純化手冊》[1],此手冊規范整理了2006年以前的相關科技期刊信息,記錄了常用實驗室化學品的純化方法數據和理化性質數據,數據格式規范,內容較為詳盡,采用此科技手冊,大大減少了原始數據收集、校對與規范化處理的工作量。此數據集今后會持續建設,不定期補充期刊文獻中新發表的純化方法數據和理化性質數據,以持續反應最新的科研成果。
                    原始數據按采集要求錄入后,再對采集數據進行規范化處理和質量校驗,最終得到實驗室化學品純化方法數據。
                    1.2 ? 數據采集
                    原始數據為科技手冊,首先介紹了實驗室化學品常用的物理純化技術和化學純化技術,以及化學品純化方法的未來發展方向,然后具體講述了各種化學品的純化方法,分為有機化學品、無機化合物、金屬有機化學品以及生物化學品。這些純化方法條目長度不等,有的只有一行,有的約有一頁,甚至更多,如乙腈、苯、乙醇和甲醇等。有些條目還包括了可能的污染物和儲存條件等信息。大多數條目里插入了與物理性質有關的更多信息,比如熔點、沸點、折射率、相對密度、旋光度(針對適用的化合物)和紫外吸收數據,部分條目有化合物分子量,幾乎所有條目都附有化合物的CAS登錄號。原始數據如圖1所示。


                    圖1 ? 原始數據示例
                    根據原始數據的這些類型和特點,設計了實驗室化學品純化方法數據集加工數據表,采用人工錄入的方式,將原始手冊中的實驗室化學品純化方法、理化性質和參考文獻等數據,分別錄入加工數據表中。加工數據表以化學品作為實體,將理化性質數據、純化方法數據和參考文獻數據作為其屬性。制訂了具體的數據采集錄入規則:
                    (1)段落開頭部分若是粗體字,說明這是一個新化學品條目;若段落開頭不是粗體字,則此段內容屬于上一段的化學品,在開頭部分加入“$$”段落標識,內容并入上一段。
                    (2)新化學品條目開頭的粗體字部分是化學品名稱,若此部分結尾處有括號,則括號前數據是化學品俗名,括號中數據是化學品系統名稱。
                    (3)化合物名稱后中括號部分是化學品的CASRN號。
                    (4)CASRN號后面的粗體字部分是化學品的分子式和理化性質數據,各項間以逗號分隔,并以句號結尾。其中:“M”字符開頭者是化學品分子量數據?!癿”字符開頭者是化學品熔點數據?!癰”字符開頭者是化學品沸點數據?!皃K”字符開頭者是可電離化合物的電離常數數據。若“pK”有上標,則上標數字是溫度值;若沒有上標,說明是室溫(約15–25℃),若下標有“Est”字符,說明這是電離常數估計值?!癧α]”字符開頭者是化學品旋光度數據,其上標是溫度,下標是光源波長?!?span class="content_chart_formula_inline">\(n\)”字符開頭者是化學品折射率數據,其上標是溫度,下標是光源波長。所有數據項分別錄入數據采集表的對應列中。若沒有對應列,則錄入“Other”列。
                    (5)理化性質數據之后的部分是化學品純化方法數據,其中的中括號部分是純化方法的來源文獻信息,此部分可能存在多個純化方法和多個來源文獻。
                    1.3 ? 數據規范化處理
                    原始數據經采集整理后,錄入實驗室化學品純化方法加工數據表。然后,根據數據集的設計,對加工數據表中的數據項進行規范化處理:去除CASRN號中的“-”字符,將其由字符串轉換為整型數字,以便后續進行數據校驗處理。最后,設計實驗室化學品純化方法數據表(數據表結構信息如表1所示),將加工數據表中的合格數據項存入此數據表,并添加流水號作為主鍵。
                    表1 ? 實驗室化學品純化方法數據表
                    序號屬性名稱數據類型屬性說明
                    1ID數值流水號,主鍵
                    2Category字符化學品類別
                    3ChemName字符化學品名稱
                    4CASRN字符化學品CASRN號
                    5MF字符分子式
                    6MW數值分子量
                    7FP數值凝固點,單位:℃
                    8MP數值熔點,單位:℃
                    9BP數值沸點,單位:℃
                    10DS字符相對密度,是20℃下目標物密度與4℃下水密度的比值。
                    11IOR字符折射率。以“^<”和“^>”括起來的部分是上標數據;以“^{”和“^}”括起來的部分是下標數據。缺省溫度是20℃,缺省波長是鈉D線平均波長。
                    12OPR字符旋光度。以“^<”和“^>”括起來的部分是上標數據;以“^{”和“^}”括起來的部分是下標數據。缺省溫度是20℃,缺省波長是鈉D線平均波長。
                    13Other字符其他性質數據
                    14CI字符比色指數
                    15DC字符電離常數。以“^<”和“^>”括起來的部分是上標數據;以“^{”和“^}”括起來的部分是下標數據。缺省溫度是室溫(約15–25℃)。
                    16Method字符純化方法。其中,以字符“$$”標記新行行首。
                    17SrcDoc字符來源文獻。其中,多個來源文獻數據以分號分隔。
                    2 ? 數據樣本描述
                    實驗室化學品純化方法數據集主要包括實驗室化學品純化方法數據表,此數據表中存儲了實驗室化學品的理化性質數據、純化方法數據和來源文獻信息。具體是實驗室化學品的類別、名稱、CASRN號、分子式、分子量、凝固點、熔點、沸點、相對密度、折射率、旋光度、比色指數、電離常數、純化方法和來源文獻數據,其屬性名稱和數據如表2所示。
                    表2 ? 實驗室化學品純化方法數據示例
                    序號屬性名稱屬性說明范例
                    1ID流水號1
                    2Category化學品類別有機化學品
                    3ChemName化學品名稱吖丁啶(氮雜環丁烷)
                    4CASRN化學品CASRN號503-29-7
                    5MF分子式C6H6O
                    6MW分子量57.1
                    7FP凝固點1.3℃
                    8MP熔點17.3℃
                    9BP沸點61℃
                    10DS相對密度0.846
                    11IOR折射率\({n}_{D}^{20}\) = 1.4575
                    12OPR旋光度[α]546=-123°(c 10,H20,24h后)
                    13Other其他性質閃點:?41.8℃
                    14CI比色指數45160
                    15DC電離常數pK25 11.29
                    16Method純化方法本品用水(活性炭脫色)結晶成黃色針狀晶體。如果其中含有游離酸,那么用二氯甲烷溶解,再用飽和碳酸鈉、鹽水洗滌,之后用硫酸鎂干燥,蒸發最后將殘留物重結晶。游離酸的熔點是203–204℃(dec),其pK1<1,pK2=3.70。銨鹽熔點232℃(dec)(用丙酮溶液重結晶),氨基化合物的熔點239.2℃(用水重結晶)。
                    17SrcDoc來源文獻Searles et al. J Am Chem Soc 78 4917 1956
                    3 ? 數據質量控制和評估
                    為保證實驗室化學品純化方法數據集的數據質量,在原始數據采集錄入過程中制定了數據采集規范。同時采用抽撿的方式,隨機抽取數據記錄進行人工校對,以控制數據錄入質量。為了解決數據的可追溯性問題,在原始數據采集時同時錄入了數據來源號,此來源號由條目所在頁碼組成。由于工具書籍的編排具有嚴格的順序性,所以可針對數據項的連續性進行校驗。另外,在后續的數據處理中,若發現有數據遺漏或者數據質量問題,可以根據數據來源號追溯到原始數據,以進行校對修正。
                    對于數據集中的關鍵數據項,通過軟件程序進行了自動校驗。根據美國化學文摘社發布的CASRN號有效性驗證規范[2],一個CASRN最多有十位數字,由連字符“-”分為三部分,從左邊起的第一部分數字為二到七位數,第二部分數字為兩位數,最后一部分為一個數字。最后一部分是整個CASRN號有效性的校驗碼,根據CASRN號的校驗規則,數據集自主開發了程序軟件,自動驗證了錄入CASRN號的正確性。
                    對于實驗室化學品純化方法數據集中同時有分子式和分子量的條目,設計了通過化學品分子式計算分子量的算法程序,此算法考慮了晶體、有機鹽和聚合物分子式的特殊性,對這類分子式進行了特殊處理。最終通過分子式計算得到化學品的計算分子量,并與錄入的分子量進行比對,以驗證錄入的分子式和分子量的正確性。
                    考慮到手冊結尾有化學品名稱索引和CAS索引部分,還安排專人將化學品名稱、CASRN號與頁碼信息與加工數據表中的相關信息進行校對,以篩選出人工錄入時的錯誤,進一步提高了實驗室化學品純化方法數據集的數據質量。
                    4 ? 數據使用方法和建議
                    實驗室化學品純化方法數據集采用MDB格式存儲,使用者可以通過Microsoft Office Access?軟件打開數據集,然后通過瀏覽或檢索窗體對數據集進行查看、檢索和篩選等操作,如圖2–4所示。數據集共有17個數據項,分別是化學品的ID號、類別、名稱、CASRN號、分子式、分子量、凝固點、熔點、沸點、相對密度、折射率、旋光度、比色指數、電離常數、純化方法、來源文獻和其他性質數據,均支持檢索和篩選操作。當鼠標懸停于相對密度、折射率、旋光度或電離常數項時,會有此項的說明信息顯示,如圖2所示。


                    圖2 ? 實驗室化學品純化方法數據集瀏覽窗口示例


                    圖3 ? 實驗室化學品純化方法數據集名稱檢索示例


                    圖4 ? 實驗室化學品純化方法數據集CASRN檢索示例
                    化學專業數據庫網站上也提供了實驗室化學品純化方法數據集服務[3],網站檢索頁面如圖5所示。網站主要提供了三種Web檢索方式:按化合物名稱檢索、按CASRN號檢索和按分子式檢索。另外,網站將本數據集與其他數據集進行了有機整合,通過網站檢索可以獲得目標化學品更多的性質數據。


                    圖5 ? 實驗室化學品純化方法數據集Web檢索示例
                    實驗室化學品純化方法數據集中的數據描述具有一定的專業性,為了保證數據格式的統一,數據集中采用某些符號和縮寫來代替相應的專業名詞;為了滿足在數據集中存儲及檢索的需要,特制定了縮寫符號的數據集存儲格式。詳細說明如表3所示。
                    表3 ? 實驗室化學品純化方法數據集符號和縮寫說明表
                    序號縮寫符號數據集存儲格式說 明
                    1\({\left[\alpha \right]}_{D}^{20}\)[α]^<20^>^{D^}旋光度,下標為光源波長,D表示鈉D線平均波長;上標為溫度
                    2\({n}_{D}^{20}\)n^<20^>^{D^}折射率,下標為光源波長,D表示鈉D線平均波長;上標為溫度
                    3\({d}_{4}^{20}\)d^<20^>^{4^}相對密度,指一定體積的該物質在20℃下的質量與等體積純水在4℃下的質量之比
                    4\({pK}_{1}^{25}\)pK^<25^>^{1^}電離常數,指25℃下該物質的一階電離常數,若下標中出現Est字樣,說明是估計值,否則是實驗值
                    5EtEt乙基
                    6MeMe甲基
                    7εε分子消光系數
                    8IRIR紅外光譜
                    9UVUV紫外光譜
                    10NMRNMR核磁共振
                    11λmaxλ^{max^}(光譜的)最大吸收波長
                    相對于工具書籍只能根據目錄和索引來瀏覽和檢索,實驗室化學品純化方法數據集的使用方法更為便捷和靈活。不僅可以根據化學品的理化性質數據進行檢索和篩選,而且可以根據用戶感興趣的純化方法關鍵詞進行篩選和聚類分析。本數據集的信息描述言簡意賅,收集整理的大都是實驗室常用的化學品信息,可以作為化學和生物化學科研人員進行實驗研究時的參考數據集。
                    [1]
                    ARMAREGO WLF, CHAI CLL. 實驗室化學品純化手冊[M]. 北京: 化學工業出版社, 2006.
                    [2]
                    American Chemical Society. Check Digit Verification of CAS Registry Numbers[EB/OL]. [2018-10-08]. http://www.cas.org/content/chemical-substances/checkdig.
                    [3]
                    上海有機所. 化學品純化方法數據庫. [2018-10-08]. http://www.organchem.csdb.cn/scdb/main/purechem_introduce.asp.
                    數據引用格式
                    李英勇, 趙英莉. 實驗室化學品純化方法數據集[DB/OL]. Science Data Bank, 2019. (2019-11-29). DOI: 10.11922/sciencedb.897.
                    稿件與作者信息
                    論文引用格式
                    李英勇, 趙英莉. 實驗室化學品純化方法數據集[J/OL]. 中國科學數據, 2020, 5(2). (2020-06-10). DOI: 10.11922/csdata.2019.0072.zh.
                    李英勇
                    Li Yingyong
                    主要承擔數據庫設計和數據庫建庫工作。
                    liyingyong@sioc.ac.cn
                    (1978—),男,河南南陽人,碩士,高級工程師,研究方向為化學信息學。
                    趙英莉
                    Zhao Yingli
                    主要承擔數據采集、基礎數據加工和數據管理工作。
                    (1970—),女,遼寧沈陽人,碩士,副研究館員,研究方向為化學信息學。
                    出版歷史
                    I區發布時間:2019年12月2日 ( 版本ZH2
                    II區出版時間:2020年6月11日 ( 版本ZH3
                    參考文獻列表中查看
                    中國科學數據
                    csdata