<em id="lj1v3"><b id="lj1v3"></b></em>

    <i id="lj1v3"></i>

        <i id="lj1v3"><b id="lj1v3"><progress id="lj1v3"></progress></b></i>

        <video id="lj1v3"></video>
        <video id="lj1v3"></video>

                    <i id="lj1v3"><ol id="lj1v3"><progress id="lj1v3"></progress></ol></i>
                    科學大數據工程 II 區論文(已發表) ? 版本 ZH3 Vol 5 (2) 2020
                    下載
                    商品化合物數據庫
                    Existing commercial compounds database
                    ?>>
                    : 2019 - 11 - 26
                    : 2020 - 02 - 25
                    : 2019 - 12 - 11
                    : 2020 - 06 - 12
                    极速快三
                    4309 19 0
                    摘要&關鍵詞
                    摘要:現有化學物質名錄中收錄的化合物安全、環境和健康風險已知,可以直接進入實驗室和進一步的工業實驗,降低項目研究時間和經濟成本。目前,名錄中只含有CAS(登錄)號等基本信息,無法滿足功能化合物篩選的需求,我們根據中國、美國和歐盟的現有化學物質名錄,進行數據挖掘、計算和二次加工,建立了商品化合物數據庫(Existing Commercial Compounds Database,ECCD)。除了名錄中的基本信息外,ECCD根據CAS號添加了表征化合物結構信息的mol文件,并在此基礎上利用基團貢獻法估算了化合物的物性信息,包括摩爾質量、熔點、沸點、密度、蒸氣壓、表面張力和黏度等,作為化合物篩選的基礎信息。為了實現功能化合物的批量篩選,ECCD中還添加了分配系數、選擇性、溶解能力和溶劑損失等描述相間行為的重要物理化學特征參數。此外,還可根據篩選目的的不同,以ECCD為基礎,添加化合物的特定物性和功能數據,以滿足特定功能化合物篩選的需求。為進行計算機輔助分子設計、材料表面設計和功能化合物結構設計等提供極大的便利。
                    關鍵詞:化學物質名錄;商品化合物;物性數據;化合物篩選
                    Abstract & Keywords
                    Abstract:?The compounds in the existing chemical substances inventory, with known safety, environmental, and health risks, can be easily accessed in laboratories and be further tested for industrial experiments, with less project research time and economic cost compared with new compounds. At present, the inventories only contain basic information of substances, such as CAS numbers, which cannot meet the needs of functional compound screening. We established the Existing Commercial Compounds Database (ECCD) by extracting and processing the compounds data contained in the existing chemical substances inventories in China, United States and European Union. In addition to the basic information, a mol file that characterizes the structure information of the compound is collected in the ECCD in accordance with the CAS registration numbers. On this basis, we adopted group contribution method to estimate the physical properties of the compound, including molar mass, melting point, boiling point, density, vapor pressure, surface tension, and viscosity, which serve as the basic information for compound screening. Furthermore, in order to realize the batch screening of functional compounds, specific physical and chemical characteristic parameters for the description of the behavior between two liquid phases, such as partition coefficient, selectivity, solubility, and solvent loss, have been added to the ECCD. It should be noted, for the different screening purposes, specific physical properties and functional data of compounds were also added to the ECCD to meet the needs of screening specific function compounds. Thus the database can greatly facilitate the computer-aided molecular design, material surface design, and functional compound structure design, etc.
                    Keywords:?chemical substances inventory;?commercial compounds;?physical property data;?compound screening
                    數據庫(集)基本信息簡介
                    數據庫(集)名稱商品化合物數據庫
                    數據作者續冉、趙月紅、韓清珍、溫浩
                    數據通信作者趙月紅(yhzhao@ipe.ac.cn)
                    數據時間范圍2017–2019年
                    數據量74 KB
                    數據格式*.xls
                    數據服務系統網址http://www.sciencedb.cn/dataSet/handle/914(89個樣例數據集)
                    基金項目國家科技基礎條件平臺項目(DKA2017-12-02-05);“十三五”院信息化專項(XXH1350303-103)。
                    數據庫(集)組成中國、美國、歐盟現有化學物質名錄中的34177種化合物,包含標識信息(CAS登錄號、中英文名稱、所屬名錄、化學式、摩爾質量、SMILES碼)、理化性質數據(熔點Tm 、正常沸點Tb 、蒸汽壓P、密度ρ、表面張力σ、黏度η)和萃取性能(分配系數mij 、選擇性βij 、溶解能力SPij 、溶劑損失SLi )。
                    Dataset Profile
                    TitleExisting commercial compounds database
                    Data authorsXu Ran, Zhao Yuehong, Han Qingzhen, Wen Hao
                    Data corresponding authorZhao Yuehong (yhzhao@ipe.ac.cn)
                    Time range2017–2019
                    Data volume74 KB
                    Data format*.xls
                    Data service system<http://www.sciencedb.cn/dataSet/handle/914> (89 samples)
                    Sources of fundingThe National R&D Infrastructure and Facility Development Program of China, Fundamental Science Data Sharing Platform (DKA2017-12-02-05); CAS informatization project during the Thirteenth Five-Year Plan – "Key Database Construction and Application Services for the Discipline of Chemistry" (XXH1350303-103).
                    Database composition34,177 compounds in the existing chemical substances inventories in China, United States, and European Union, including identification information (CAS registration number, Chinese and English names, belonging inventory, chemical formula, molar mass, SMILES code), physical and chemical properties (melting point Tm, normal boiling point Tb, vapor pressure P, density ρ, surface tension σ, viscosity η) and extraction performance (partition coefficient mij, selectivity βij, dissolution capacity SPij, solvent loss SLi).
                    引 言
                    目前許多國家和地區都編制了本國的化學物質管理法規,要求對生產、加工、銷售、使用或從國外進口的化學物質進行注冊/通報。我國自2003年開始建立并執行新化學物質登記制度[1-2],根據是否列入目錄,將化學物質分為現有化學物質和新化學物質?,F有化學物質的安全、環境和健康風險已知,通過有效的技術手段和監管措施可防范可能出現的危害,且可根據CAS登錄號獲得化合物的化學物質安全技術說明書(Material safety data sheet,MSDS),可為安全生產/儲存/運輸/使用/處置、泄露應急處理、勞動保護和救護措施等提供指導。
                    為了便于利用名錄中的化合物,中國科學院過程工程研究所基于中國、美國和歐盟的現有化學物質名錄,建立了商品化合物數據庫(Existing Commercial Compounds Database,ECCD)。ECCD中除了包含名錄中化合物的基本信息外,還根據CAS登錄號添加了表征化合物結構信息的mol文件。由于缺乏實驗數據,無法滿足化合物篩選數據一致性和完備性的要求,我們利用化合物分子結構信息,采用基團貢獻法和基團匹配工具CACTVS開發了化合物物性估算程序,進行物性估算,用于擴充化合物的物性信息,包括熔點、正常沸點、密度、黏度等,作為功能化合物篩選的基礎數據集。對于有特定功能需求的化合物篩選,可以在基礎數據集的基礎上,增加專題功能數據。如,為了滿足萃取劑篩選的需求,實現煤化工廢水中多種污染物的萃取,我們在ECCD庫中補充了針對廢水中12種典型污染物的萃取性能數據,并進一步開發了基于多物性聯合檢索的高通量篩選方法。由于ECCD中化合物環境健康風險已知,有可能進一步發現“老”化合物的“新”功能,有利于提高功能化合物開發效率,降低經濟和時間成本。
                    1 ? 數據采集和處理方法
                    1.1 ? 數據源
                    目前,世界主要國家和地區的化學物質名錄有:中國現有化學物質名錄(Inventory of existing chemical substances,IECSC)、美國有毒物質控制名錄(The toxic substances control act,TSCA)、歐洲現有商業化學物質名錄(European inventory of existing commercial chemical substances,EINECS)、菲律賓化學品和化學物質名錄(Philippine inventory of chemicals and chemical substances,PICCS)、韓國現有化學物質清單(Korea existing chemical list,KECI)、加拿大國內物質清單(Domestic substances list,DSL)、日本現有和新化學物質(Existing and new chemical substances,ENCS)、澳大利亞化學物質名錄(Australia inventory of chemical substances,AICS)等[3-4]。
                    收錄化合物數量最多的6個名錄中化合物的分布如圖1所示,其中文恩圖由Tbtools[5]繪制??梢钥闯鰵W洲現有商業化學品名錄(EINECS)[6]、美國有毒物質控制名錄(TSCA)[7]和中國現有化學物質名錄(IECSC)[8-9]基本可以包含世界化學品名錄中的大部分化合物。因此,本文以這三個名錄為基礎建立ECCD數據庫。


                    圖1 ? 世界化學品名錄中化合物的數量分布圖
                    3個名錄中化學物質的數量如表1所示,總共有10萬多種化學物質。名錄中的化學物質一般包含CAS號、流水號、物質名稱和化學分子式等基本信息。為了擴充數據庫信息,以支持功能化合物篩選,我們以CAS號為依據從中國科學院上海有機化學研究所獲取了化合物的mol文件。排除重復的化合物后,ECCD中共有34177種含分子結構信息的化合物。
                    表1 ? 3個名錄中的化合物情況
                    名錄更新時間物質個數有CAS號有mol文件
                    EINECS2019~10000010020331773
                    TSCA2018~840006763516876
                    IECSC2018~450003712610611
                    1.2 ? 物性數據的計算
                    為了擴展數據庫的應用范圍,ECCD添加了化合物的物性數據,包括摩爾質量M、熔點Tm 、正常沸點Tb 、蒸汽壓P、密度ρ、表面張力σ和粘度η等。由于實驗數據完備性不足,ECCD中的物性數據采用基團貢獻法進行估算?,F有物性計算方法中,基團貢獻法具有適用范圍廣、計算簡單、估算精度誤差范圍可接受等優點。表2總結了本數據庫中采用的物性計算方法[10,11,12 ],包括C-G法、Joback法、GCVOL法和CSGC法。
                    表2 ? 物性數據的計算方法
                    物性數據計算方法
                    熔點TmC-G, Joback
                    正常沸點TbC-G, Joback
                    密度ρC-G, GCVOL
                    蒸氣壓PCSGC_PRV
                    表面張力σCSGC_ST1
                    黏度ηCSGC_VK
                    物性估算程序包括3個步驟:首先利用Open Babel 2.3.2軟件將化合物結構mol文件轉化成SMILES碼;根據SMARTS碼的編碼規則,對不同基團貢獻法中的基團進行表達。然后利用CACTVS化學工具庫[13]進行SMILES碼和SMARTS碼的匹配,將分子結構拆解成基團。最后采用相應的基團貢獻法估算化合物的性質。物性估算程序采用Tcl語言(Tool Command Language)[14]編寫,可以實現不同物性估算任務的批處理作業,以及程序與外部數據的連接。
                    根據不同的化合物篩選需求,用戶可以在現有ECCD數據庫上的基礎上添加專用的物性數據和功能數據,實現相應的功能化合物的篩選。例如,為了將ECCD數據庫應用于煤化工廢水中多種污染物脫除的萃取劑設計,我們在庫中添加了萃取性能數據??紤]到廢水中污染物濃度很低,萃取操作液液相平衡計算采用了無限稀活度系數。萃取劑對12種典型污染物(苯酚、甲基酚、二甲基酚、苯二酚、苯三酚、聯苯、三聯苯、萘、茚、吡啶、吲哚、喹啉)的萃取性能的計算方法如下:
                    (1)
                    (2)
                    (3)
                    (4)
                    其中,下角標ij分別指萃取劑和污染物,下角標w指水。MwMi 分別是水和萃取劑的摩爾質量。mij 是污染物j在萃取相和水相中的分配系數,βij 是萃取劑i對污染物j和水的選擇性,SPij 是萃取劑i對污染物j的溶解能力,SLi 是萃取劑i在水中的溶劑損失。、、、分別是jw中、ji中、wi中和iw中的無限稀釋活度系數。
                    1.3 ? 數據使用的便利化
                    為了方便使用ECCD進行萃取劑篩選,以SQL Server 2008作為數據庫管理系統,在Windows 7環境下,利用C#語言和Visual Studio 2010開發了ECCD的圖形用戶界面。ECCD的主界面和檢索界面如圖2和圖3所示。


                    圖2 ? 現有商品化合物數據庫的登錄界面


                    圖3 ? 現有商品化合物數據庫檢索欄
                    2 ? 數據樣本描述
                    ECCD采用CAS號作為唯一標識字段,化合物的基本信息、物性數據和功能數據均通過CAS號集成到數據庫中。針對不同功能化合物篩選擴充的物性數據表也可以通過CAS登錄號集成到ECCD中。表3–5分別是化合物的標識數據表、理化性質數據表和萃取性能數據表。其中各個表包含的信息為:(1)標識數據:CAS登錄號、中文名稱、英文名稱、所屬名錄、分子式、SMILES碼、摩爾質量;(2)理化性質數據:正常沸點、熔點、密度、蒸汽壓、黏度、表面張力;(3)萃取性能數據:分配系數、選擇性、溶解能力、溶劑損失。
                    表3 ? ECCD的化合物標識數據表
                    字段數據類型含義說明
                    IDnumint主鍵非空
                    CASnvarchar(255)CAS登錄號唯一,非空
                    Name_CNnvarchar(255)中文名稱IUPAC命名
                    Name_ENnvarchar(255)英文名稱IUPAC命名
                    Inventorynvarchar(255)所屬名錄?
                    MFnvarchar(255)化學式?
                    smilesnvarchar(255)SMILES碼?
                    Mfloat摩爾質量單位:g?mol?1
                    表4 ? ECCD的理化性質數據表
                    字段數據類型含義說明
                    CASnvarchar(255)外鍵,CAS登錄號唯一,非空
                    Tbfloat正常沸點單位:K
                    Tmfloat熔點單位:K
                    Denfloat密度單位:g?cm?3
                    在323.15 K和101.325kPa下
                    Pfloat蒸氣壓單位:kPa,在323.15 K下
                    Vfloat黏度單位:mPa?s,在323.15 K下
                    STfloat表面張力單位:N?m?1,在323.15 K下
                    表5 ? ECCD的相間行為參數數據表
                    字段數據類型含義說明
                    CASnvarchar(255)外鍵,CAS登錄號唯一,非空
                    SLfloat溶劑損失摩爾分數,在323.15 K下
                    mjfloat分配系數在323.15 K下
                    betajfloat選擇性在323.15 K下
                    SPjfloat溶解能力摩爾分數,在323.15 K下
                    注:其中j代表不同的污染物,1是苯酚,2是甲基酚,3是二甲基酚,4是苯二酚,5是苯三酚,11是聯苯,22是三聯苯,33是萘,44是茚,55是吡啶,66是吲哚,77是喹啉。
                    3 ? 數據質量控制和評估
                    分子結構和基團的表達以及基團匹配順序將對拆解結果的正確性產生影響,本庫通過對分子mol文件進行顯氫處理,以避免SMILES碼因隱氫引起的拆解錯誤。此外,修改了部分基團的SMARTS碼和基團匹配順序,以保證基團匹配結果的正確性。
                    無限稀釋活度系數采用Dortmund UNIFAC模型[15-16]計算,它改進了活度系數組合項和剩余項,能更好地描述稀釋區的真實行為。關聯模型參數的數據集來自多特蒙德數據庫(Dortmund Data Bank,DDB),關聯中不僅使用了汽–液平衡數據,還使用了超額焓、超額等壓熱容、液–液平衡、共沸、固–液平衡數據、無限稀釋活度系數數據,與原始UNIFAC模型相比,Dortmund UNIFAC模型估算精度更高,估算范圍更廣,預測無限稀釋活度系數的誤差可比原始UNIFAC模型降低40%–50%[17]。
                    4 ? 數據使用方法和建議
                    ECCD數據已經開發完成,目前僅限于內部使用,已具備在線數據查詢和數據可視化能力。ECCD數據庫包括兩個賬戶,管理員賬戶和普通用戶賬戶。管理員可以實現數據的檢索、導入、導出和刪除。普通用戶可以進行數據的檢索和導出。圖4是檢索后的結果界面。點擊圖中的“查看”,可以得到基本信息、理化性質和萃取性能。用戶可以設定物性約束范圍進行檢索,批量下載篩選后的結果。本數據庫還可以根據不同的體系添加相應的物性數據,更新數據集,擴展其應用范圍。如需深入了解ECCD包含數據內容,樣例數據集可以從Science Data Bank(http://www.sciencedb.cn/dataSet/handle/914)下載(包含89組樣例數據)。需要指出的是ECCD系統尚未對外提供服務,正式線上服務工作正在準備中。如需使用本系統,可聯系作者。


                    圖4 ? ECCD數據庫結果欄
                    [1]
                    國家環境保護總局. 新化學物質環境管理辦法. 國家環境保護總局令第17號[EB/OL]. (2003–09–12) [2019–11–26]. http://www.gov.cn/gongbao/content/2004/content_62688.htm.
                    [2]
                    環境保護部. 新化學物質環境管理辦法. 環境保護部令第7號[EB/OL]. (2010–02–04) [2019–11–26]. http://www.gov.cn/flfg/2010-02/04/content_1528001.htm.
                    [3]
                    ChemSafetyPRO. Global Chemical Inventories[EB/OL]. (2019–11–06) [2019–11–26]. https://www.chemsafetypro.com/Topics/Category/Global_Chemical_Inventories.html.
                    [4]
                    Chemical Inspection and Regulation Service Ltd. Global Chemical Inventories 2011[EB/OL]. (2011–11–01) [2019–11–26]. http://www.cirs-reach.com/Inventory/Global_Chemical_Inventories.html.
                    [5]
                    CHEN C, XIA R, CHEN H, et al. TBtools, a Toolkit for Biologists integrating various HTS-data handling tools with a user-friendly interface[EB/OL]. (2018–03–27) [2020–02–18]. https://www.biorxiv.org/content/10.1101/289660v1.
                    [6]
                    European Chemicals Agency. EC Inventory[EB/OL]. (2019–10–10) [2019–11–26]. https://www.echa.europa.eu/information-on-chemicals/ec-inventory.
                    [7]
                    United States Environmental Protection Agency. TSCA Chemical Substance Inventory[EB/OL]. (2018–10–05) [2019–11–26]. https://www.epa.gov/tsca-inventory.
                    [8]
                    環境保護部. 關于發布《中國現有化學物質名錄》的公告. 環境保護部公告 2013年第1號[EB/OL]. (2013–01–14) [2019–11–26]. http://www.mee.gov.cn/gkml/hbb/bgg/201301/t20130131_245810.htm.
                    [9]
                    生態環境部. 關于增補《中國現有化學物質名錄》的公告. 生態環境部公告 2018年第58號[EB/OL]. (2018–11–22) [2019–11–26]. http://www.mee.gov.cn/xxgk2018/xxgk/xxgk01/201811/t20181130_676779.html.
                    [10]
                    PRETEL E J, LOPEZ P A, BOTTINI S B, et al. Computer-aided molecular design of solvents for separation processes[J]. AIChE Journal, 1994, 40(8): 1349-1360.
                    [11]
                    POLING B E, PRAUSNITZ J M, O’CONNELL J P. The properties of gases and liquids[M]. 5th ed. New York: McGraw-Hill, 2001.
                    [12]
                    董新法, 方立國, 陳礪. 物性估算原理及計算機計算[M]. 北京: 化學工業出版社, 2006.
                    [13]
                    TORVS Research Team. The CACTVS system home page[EB/OL]. (1996–12–18) [2019–11–26]. http://www2.ccc.uni-erlangen.de/software/cactvs/.
                    [14]
                    OUSTERHOUT J K, JONES K. Tcl / Tk 入門經典[M]. 第2版. 張元章, 譯. 北京: 清華大學出版社, 2010.
                    [15]
                    WEIDLICH U, GMEHLING J. A modified UNIFAC model. 1. Prediction of VLE, hE, and γ[J]. Industrial & Engineering Chemistry Research, 1987, 26(7): 1372-1381.
                    [16]
                    CONSTANTINESCU D, GMEHLING J. Further development of modified UNIFAC (Dortmund): Revision and extension 6[J]. Journal of Chemical and Engineering Data, 2016, 61(8): 2738-2748.
                    [17]
                    LOHMANN J, JOH R, GMEHLING J. From UNIFAC to modified UNIFAC (Dortmund)[J]. Industrial & Engineering Chemistry Research, 2001, 40(3): 957-964.
                    數據引用格式
                    續冉, 趙月紅, 韓清珍, 溫浩. 商品化合物數據庫[DB/OL]. Science Data Bank, 2019. (2019-11-26). DOI: 10.11922/sciencedb.914.
                    稿件與作者信息
                    論文引用格式
                    續冉, 趙月紅, 韓清珍, 溫浩. 商品化合物數據庫[J/OL]. 中國科學數據, 2020, 5(2). (2020-02-19). DOI: 10.11922/csdata.2019.0076.zh.
                    續冉
                    Xu Ran
                    主要承擔工作:商品化合物數據庫的創建、物性數據的計算、更新和維護。
                    (1990—)女,山東臨沂人,博士研究生,研究方向為計算化學與化工。
                    趙月紅
                    Zhao Yuehong
                    主要承擔工作:商品化合物數據庫的創建、更新和維護。
                    yhzhao@ipe.ac.cn
                    (1973—),男,內蒙古包頭人,博士,副研究員,研究方向為計算化學與化工。
                    韓清珍
                    Han Qingzhen
                    主要承擔工作:商品化合物數據庫的維護。
                    (1979—)女,山東臨沂人,博士,副研究員,研究方向為計算化學與化工。
                    溫浩
                    Wen Hao
                    主要承擔工作:商品化合物數據庫的設計。
                    (1957—),男,北京人,博士,研究員,研究方向為計算化學與化工。
                    出版歷史
                    I區發布時間:2019年12月11日 ( 版本ZH2
                    II區出版時間:2020年6月12日 ( 版本ZH3
                    參考文獻列表中查看
                    中國科學數據
                    csdata