<em id="lj1v3"><b id="lj1v3"></b></em>

    <i id="lj1v3"></i>

        <i id="lj1v3"><b id="lj1v3"><progress id="lj1v3"></progress></b></i>

        <video id="lj1v3"></video>
        <video id="lj1v3"></video>

                    <i id="lj1v3"><ol id="lj1v3"><progress id="lj1v3"></progress></ol></i>
                    其他數據論文 II 區論文(已發表) ? 版本 ZH3 Vol 6 (1) 2021
                    下載
                    2000–2017年聯合國各成員國的SDGs指標對相關性系數數據集
                    A dataset of correlation coefficients of UN member states’ SDGs indicator pairs during 2000–2017
                    ?>>
                    : 2021 - 01 - 15
                    : 2021 - 03 - 08
                    : 2021 - 01 - 31
                    : 2021 - 03 - 29
                    极速快三
                    675 4 0
                    摘要&關鍵詞
                    摘要:可持續發展目標(Sustainable Development Goals,SDGs)是聯合國用于指導全球可持續性發展工作的新議程。各項目標之間的關聯性,尤其是3級指標數據的相關性分析和研究,對于有效推動可持續發展目標的具體實施具有重要意義。本文基于《可持續發展報告2020》中聯合國全體193個成員國的2000–2017年的3級指標時間序列數據,經過數據的預處理,并依據算法的相關性覆蓋程度的大小,從Pearson、Spearman、Kendall和MIC 4個算法中遴選出MIC算法和Spearman算法,計算得到193個成員國2000 – 2017年總計62項可利用指標項、1766個指標對的相關系數和相關方向。本數據集可以作為聯合國評估可持續發展目標未來實現的分析數據,也可以作為各國監測指標完成情況、制定相關政策的重要參考依據。
                    關鍵詞:可持續發展目標;相關性分析;時間序列;最大信息系數;指標對
                    Abstract & Keywords
                    Abstract:?Sustainable Development Goals (SDGs) are the new agenda of the United Nations to guide global sustainable development work. The correlation between the various goals, especially the correlation analysis of and research on the third-level indicator data, is of great significance for effectively promoting the concrete implementation of the sustainable development goals. This paper is based on the third-level indicator time series data of all 193 UN member states during 2000 – 2017 in the Sustainability Report 2020. After data preprocessing, and based on the degree of correlation coverage of the algorithm, we selected MIC and Spearman from Pearson, Spearman, Kendall and MIC for calculation parctice and obtained a total of 62 available indicator items, correlation coefficients and correlation directions of 1,766 indicator pairs in 193 member states during 2000 – 2017. This dataset can be used as the analysis data for the UN to assess the future realization of the Sustainable Development Goals, as well as an important reference for countries to monitor the completion of indicators and formulate relevant policies.
                    Keywords:?Sustainable Development Goals;?correlation analysis;?time series;?maximum information coefficient;?indicator pairs
                    數據庫(集)基本信息簡介
                    數據庫(集)名稱2000–2017年聯合國各成員國的SDGs指標對相關性系數數據集
                    數據作者高天、張麗麗、黎建輝
                    數據通信作者黎建輝(lijh@cnic.cn)
                    數據時間范圍2000–2017年
                    數據量30.1 MB
                    數據格式*.csv, *.png, *.cab
                    數據服務系統網址http://www.dx.doi.org/10.11922/sciencedb.j00001.00217
                    基金項目中國科學院戰略性先導科技專項(XDA19020104);中國科學院國際大科學計劃培育專項(241711KYSB20200023);北京市科技專項(Z201100008320027)。
                    數據庫(集)組成本數據集主要包括聯合國193個全體成員國2000–2017年的SDGs指標對的相關系數表(.csv)和南半球遴選20個國家的數據可視化圖片(.png),這些數據保存為1個cab格式文件(.cab)。
                    Dataset Profile
                    TitleA dataset of correlation coefficients of UN member states’ SDGs indicator pairs during 2000–2017
                    Data corresponding authorLI Jianhui (lijh@cnic.cn)
                    Data authorsGAO Tian, ZHANG Lili, LI Jianhui
                    Time range2000 – 2017
                    Data volume30.1 MB
                    Data format*.csv, *.png, *.cab
                    Data service system<http://www.dx.doi.org/10.11922/sciencedb.j00001.00217>
                    Sources of fundingStrategic Priority Research Program of the Chinese Academy of Sciences (XDA19020104); Program for fostering International Megascience of the Chinese Academy of Sciences(241711KYSB20200023); Beijing Municipal S&T Commission Program(Z201100008320027).
                    Dataset compositionThis dataset mainly includes the correlation coefficient tables (.csv) of the SDGs indicator pairs of all 193 UN member states from 2000 to 2017 and the data visualization pictures (.png) of selected 20 countries in the southern hemisphere. These data are saved as a cab format file (.cab).
                    引 言
                    聯合國可持續發展目標(Sustainable Development Goals,SDGs)是聯合國在《2030議程》中提出的一系列新的發展目標[1],全球發達國家和發展中國家均將其作為社會經濟協調發展的重要指導,來保障人類社會的長期穩定和健康發展。由于SDGs的3級指標主要支撐2級具體目標的落實,且用于評估《2030年議程》未來的落實情況[2],學界已經廣泛地展開關于SDGs目標和指標之間關聯性的研究。
                    可持續發展目標的相關性分析需要以統計的指標數據為基礎?!犊沙掷m發展報告2020》[3](以下簡稱報告)中提供的聯合國全體193個成員國的統計數據包括了每項指標從2000–2020年的具體數值,但有些指標的數據不完整,個別年份存在缺失。且指標的時間序列數據只能反映指標本身隨年份變化的結果,而無法看出與其他指標之間的關聯性。因此,基于報告中已統計的元數據,通過分析計算得出指標的關聯性數據,不僅可以直觀反映出SDGs整體指標框架之間的聯系,還可以為各國的政策實施和完善提供方法學的支持。
                    本文涉及的SDGs的3級指標數據包含基于對比分析所得的最優相關分析算法——MIC算法計算得出的指標對之間的相關系數和基于Spearman算法計算得到的指標對相關方向,全面地描述了SDGs指標數據之間的關聯性,為聯合國各成員國未來進一步研究和實施可持續發展目標提供了可靠的數據支撐。
                    1 ? 數據采集和處理方法
                    1.1 ? 數據來源
                    基于數據的規律性和可用性,本文所使用的SDGs指標的時間序列數據來自于《可持續發展報告2020》數據[3]。其中包含聯合國成員國家一共193個,時間跨度為2000–2020年共21年,指標從SDG1到SDG17共包含85項。
                    1.2 ? 數據處理方法
                    數據處理方法一共有4階段:數據預處理,相關性算法對比,基于最優相關性算法MIC的指標對相關系數的計算,和基于Spearman算法的指標對相關方向的計算,以及南半球20個國家的SDGs指標對系數可視化,整體流程如圖1所示。


                    圖1 ? SDGs指標數據處理流程
                    1.2.1 ? 數據預處理
                    (1)代碼名稱統一規范化
                    本文首先對原始數據中不一致的指標代碼進行名稱統一。原始數據中共有3處指標代碼不一致,統一后的結果為:“sdg2_stunting”修改為“sdg2_stuntihme”,“sdg2_wasting”修改為“sdg2_wasteihme”,“sdg5_familypl”修改為“sdg5_fplmodel”。
                    (2)數據組織
                    按照國家將指標數據分別進行存儲,對每個國家的指標進行處理。
                    ① 完整性查驗與預處理
                    處理規則為:a. 對于21年之中超過5年以上沒有數據的指標進行直接刪除;b. 根據每個國家每年的數據缺失率,最終選定了2000–2017年的指標數據。
                    ② 數據補全與存儲
                    a. 對于有一些年份缺失數據的指標利用Python的Sklearn庫中KNNImputer函數進行補全,其中k的參數設為3;b. 最后將每個國家預處理好的數據存儲成CSV格式的文件,方便未來對于數據的計算。
                    1.2.2 ? 相關性算法性能對比分析和選擇
                    有代表性的相關性算法有以下4種,其各自的優缺點如表1所示。
                    表1 ? 4種相關性算法對比
                    相關性方法優點缺點
                    Pearson[4]對線性相關比較敏感;包含了相關程度和相關方向對非線性關系不敏感;容易受異常值影響
                    Spearman適用廣泛,對變量的總體分布和容量沒有要求;有效衡量兩個變量的單調性;對數據錯誤和極端值反應不敏感不容易檢測出兩個變量的實際相關關系,統計效能低于Pearson相關系數
                    Kendall[5]適用廣泛,對變量的總體分布和容量沒有要求;有效衡量兩個變量的等級相關不容易檢測出變量序對一致性之外的相關關系
                    MIC[6]可以探測到函數、非函數和超函數等關系,具有普適性只包含相關程度,不包含相關方向
                    SDGs指標數據存在多種函數和非函數關系,由表1可知,MIC在與其他相關性算法相比之下,可以探測到更多的相關關系。無論兩個變量是線性、立方、指數、周期,還是非線性關系,MIC都可以探測出來,且可以給到較高的分數[7]。因此本文先將MIC作為探測SDGs指標對之間相關性的最優算法測度。但MIC無法檢測到相關方向,因此我們選取Spearman相關系數來補充衡量指標對之間的相關方向。
                    1.2.3 ? 基于MIC算法的指標對相關系數計算
                    本研究利用MIC算法,對193個聯合國成員國的共62項可實際使用指標進行了相關系數的計算。根據每個國家的指標對,將每項指標兩兩配對,共有1766個指標對。分別對每個國家的指標對進行MIC的相關系數計算,每個國家的數據為一列,對193個國家的數據進行合并存儲。
                    1.2.4 ? 基于Spearman算法的指標對相關方向計算
                    由MIC的定義和性質可知,MIC系數的范圍在0–1之間,本質上提供了相關程度的參考,而對于相關方向,其并無法表示。Spearman算法可以衡量2個變量之間的單調性,且不受變量的分布和樣本容量影響。因此本研究利用Spearman算法,對每個指標對進行相關方向的判定,輸出結果1表示正相關,?1表示負相關(1和?1與Spearman的相關系數取值無關,僅為相關方向的符號),作為MIC算法的補充。每個國家的處理過程和1.2.3一樣,最終結果存儲到一個CSV格式的文件中。
                    1.2.5 ? 南半球20個國家的SDGs指標對系數可視化
                    SDGs指標對相關系數可用于缺失數據補全,提供SDGs實施方向指南,發掘SDGs發展進程,有助于對SDGs問題的及時發現與政策校準,這在發展中國家的意義尤為突出。由于地理位置和歷史原因,南半球的國家絕大部分都是發展中國家,其更應該受到國際的關注。因此本研究根據南半球各國的指標數量,選取聯合國成員國南半球國家中數據完整性前20的國家,以熱力圖形式按國別展示其SDGs指標對的相關關系,圖片存儲在數據集中。(注:圖片中為顯示出指標對的相關方向的顏色差異,因此將負相關的MIC系數取負,負號僅代表相關方向。)
                    2 ? 數據樣本描述
                    本數據包括2000–2017年間,共193個聯合國成員國的SDGs的指標對的MIC相關系數,以及相關方向。為方便計算和應用,本研究將數據存儲名為Correlation coefficient of Indicator pairs.csv的文件,橫軸代表國家,縱軸代表指標對相關系數的和得分。原始數據集由文獻[3]所提供,該數據集包括About、Overview、Codebook、SDR2020 Data、Raw Trend Data 4共5張子表。其中Codebook表中詳細描述了每一項指標的特征,Raw Trend Data是193個國家2000–2020年的指標原始數據集。根據預處理后所得數據集,最終一共有62項可用指標,經無重復互相配對后共有1766個指標對。為展示數據集樣本,此節隨機選取南半球的一個成員國“安哥拉(Angola)”的數據集以及其可視化結果,如表2和圖2所示。整體數據集內指標對出現的國家數量和缺失國家部分結果見表3。
                    表2 ? SDGs指標對相關系數和相關方向(Angola,前15個指標對)
                    Indicator pairsAngola(coefficient)Angola(direction)
                    sdg2_undernsh-sdg2_stuntihme11
                    sdg2_undernsh-sdg2_wasteihme11
                    sdg2_undernsh-sdg2_obesity1-1
                    sdg2_undernsh-sdg2_trophic0.29681
                    sdg2_undernsh-sdg2_crlyld0.4591-1
                    sdg2_undernsh-sdg2_snmi0.26871
                    sdg2_undernsh-sdg3_matmort11
                    sdg2_undernsh-sdg3_neonat11
                    sdg2_undernsh-sdg3_u5mort11
                    sdg2_undernsh-sdg3_tb0.4591-1
                    sdg2_undernsh-sdg3_hiv0.35691
                    sdg2_undernsh-sdg3_lifee1-1
                    sdg2_undernsh-sdg3_fertility11
                    sdg2_undernsh-sdg3_vac0.7394-1
                    sdg2_undernsh-sdg5_fplmodel1-1


                    圖2 ? SDGs指標對相關系數熱力圖(Angola)
                    表3 ? SDGs指標對出現國家數量和缺失國家(部分)
                    指標對代碼國家個數未出現國家
                    sdg9_articles-sdg13_co2pc193None
                    sdg9_articles-sdg15_redlist193None
                    sdg13_co2pc-sdg15_redlist193None
                    sdg3_neonat-sdg3_u5mort192Liechtenstein
                    sdg3_neonat-sdg9_articles192Liechtenstein
                    sdg3_neonat-sdg13_co2pc192Liechtenstein
                    sdg3_neonat-sdg15_redlist192Liechtenstein
                    sdg3_u5mort-sdg9_articles192Liechtenstein
                    sdg3_u5mort-sdg13_co2pc192Liechtenstein
                    sdg3_u5mort-sdg15_redlist192Liechtenstein
                    sdg3_neonat-sdg3_vac190Liechtenstein, Montenegro, Sudan
                    sdg3_u5mort-sdg3_vac190Liechtenstein, Montenegro, Sudan
                    sdg3_vac-sdg9_articles190Liechtenstein, Montenegro, Sudan
                    sdg3_vac-sdg13_co2pc190Liechtenstein, Montenegro, Sudan
                    sdg3_vac-sdg15_redlist190Liechtenstein, Montenegro, Sudan
                    sdg3_neonat-sdg7_cleanfuel189Lebanon, Libya, Liechtenstein, Turkey
                    sdg3_u5mort-sdg7_cleanfuel189Lebanon, Libya, Liechtenstein, Turkey
                    sdg7_cleanfuel-sdg9_articles189Lebanon, Libya, Liechtenstein, Turkey
                    sdg7_cleanfuel-sdg13_co2pc189Lebanon, Libya, Liechtenstein, Turkey
                    sdg7_cleanfuel-sdg15_redlist189Lebanon, Libya, Liechtenstein, Turkey
                    3 ? 數據質量控制和評估
                    本數據集的質量控制體現在兩方面:一是數據預處理中對原始指標時間序列的名稱統一、刪減和補全;二是對選取MIC算法進行實際的驗證。
                    3.1 ? 數據預處理控制
                    對于原始數據的預處理是后期SDGs指標數據相關性分析的必須前提,名稱不統一和缺失的數據會對后續的分析產生很大影響。其中名稱統一詳見第1.2.1節。Olga Troyanskaya和Michael Cantor等人[8]基于無噪聲的時間序列、有噪聲的時間序列和非時間序列3組基因微矩陣的數據集,利用KNN算法、SVD算法和行平均算法進行對比驗證,證實了KNN算法在估算缺失值方面具有更好的穩定性和健壯性。因此本文選用KNN填補法對SDGs指標數據進行缺失值估算填充。
                    3.2 ? MIC算法的質量檢驗
                    由于國家數量較多,本研究依據每個大洲的GDP排名[9],選取了排名靠前的20%的國家(共43個)的指標數據對4種相關性算法進行了對比實驗。對SDGs指標數據的相關性研究從根本上是要探索和發現指標之間更多的關聯性,在此基礎上本文提出了兩種評價維度用來評價4種相關性算法的優劣。43個國家的名字如表4所示。
                    表4 ? 43個國家(排名不分先后)
                    序號國家大洲
                    1中國亞洲
                    2日本
                    3印度
                    4韓國
                    5印度尼西亞
                    6沙特阿拉伯
                    7伊朗
                    8泰國
                    9阿聯酋
                    10以色列
                    11德國歐洲
                    12英國
                    13法國
                    14意大利
                    15俄羅斯
                    16西班牙
                    17荷蘭
                    18土耳其
                    19瑞士
                    20尼日利亞非洲
                    21南非
                    22埃及
                    23阿爾及利亞
                    24摩洛哥
                    25肯尼亞
                    26埃塞俄比亞
                    27安哥拉
                    28加納
                    29坦桑尼亞
                    30剛果民主共和國
                    31澳大利亞大洋洲
                    32新西蘭
                    33巴布新幾內亞
                    34斐濟
                    35所羅門群島
                    36美國北美洲
                    37加拿大
                    38墨西哥
                    39多米尼加共和國
                    40危地馬拉
                    41巴西南美洲
                    42阿根廷
                    43哥倫比亞
                    兩種評價維度:公式(1)代表廣度覆蓋,公式(2)、(3)代表深度覆蓋[10]。
                    \(Bcov\left({M}_{a}\right)=\frac{\left|{S}_{a}\right|}{\left|S\right|}\) (1)
                    \(Dcov\left({M}_{a},{M}_\right)=\frac{\left|{S}_{a}\cap {S}_\right|}{\left|{S}_\right|}\) (2)
                    \(Dcov\left({M}_,{M}_{a}\right)=\frac{\left|{S}_\cap {S}_{a}\right|}{\left|{S}_{a}\right|}\) (3)
                    其中,\({S}_{a}\)代表利用\({M}_{a}\)算法對相關系數矩陣進行閾值\(\lambda (\left|\lambda \right|\in \left[0,?1\right])\)篩選后得到的指標對集合(其中不包含同一指標與本身的相關性得分),\({S}_\)同理。\(S\)代表總指標對的集合。廣度覆蓋表示在\({M}_{a}\)方法下探測到的有效的指標對占總體指標對的比例;深度覆蓋表示在\({M}_{a}\)\({M}_\)方法都能探測到的有效指標對中,分別占\({M}_{a}\)方法下的指標對和\({M}_\)方法下的指標對的比例。
                    43個國家的總指標對數量如圖3所示。


                    圖3 ? 43個國家的總指標對數量
                    對于前3種傳統的統計學相關性算法進行顯著性檢驗,Pearson、Spearman、Kendall在顯著性水平\(\alpha =0.05\)的條件下,分別查表[11-12]得到相關系數臨界值為:\({r}_{p}=0.468\),\({r}_{s}=0.503\),\({r}_{k}=0.317\),自由度均為\(18-2=16\)。根據3種測度算法的相關系數臨界值,可以計算指標對在3種算法測度下的相關系數滿足\(\left|{r}_{p}\right|>0.468\),\(\left|{r}_{s}\right|>0.503\),\(\left|{r}_{k}\right|>0.317?\)(包括了正相關和負相關兩種相關方向)的條件下,指標對之間拒絕零假設,存在相關關系。
                    MIC和其他3種相關性算法測度的廣度覆蓋和深度覆蓋分別如圖4和圖5所示。從圖中分布可以看出,對于兩種評價維度,MIC對于其他3種測度的覆蓋,明顯優于其他3種測度對MIC的覆蓋。這說明MIC可以探測到更廣泛的相關關系,因此選取MIC算法作為SDGs指標數據相關性分析的最優算法。


                    圖4 ? 43個國家廣度覆蓋評價維度對比結果


                    圖5 ? 43個國家深度評價維度對比結果
                    4 ? 數據價值
                    SDGs的目標涵蓋了經濟、政治、人文等多個領域,截止到2020年,SDGs共有17個總體目標,169個相關目標和230多個用來監測實施進展情況的指標。從出現國家次數排名前20的總指標對中可以看出,科技期刊論文數量、與能源相關的二氧化碳排放量和物種生存指數紅色名單這3個指標均被所有國家統計,這意味著這些指標對所有國家都具有廣泛的影響效應??梢愿顚哟蔚胤从吵?,各國對于科技、能源和生物的重視應不亞于經濟發展的重視。對于出現次數較少的指標如sdg9_netacc〔Gap in internet access by income (percentage points)〕和sdg10_adjgini(Gini coefficient adjusted for top income)等,可能與數據缺失量較大有關。需要各國政府進一步加強對這些問題的關注,督促有關部門盡快制定和完善監測工作和統計方案,以保障從各個方面推進可持續發展議程的實質進展。
                    本數據集包括聯合國193個成員國的2000–2017年的SDGs 62項可利用指標對相關系數和相關方向,以及南半球數據量排名前20的國家的相關系數可視化結果。數據集存儲在CAB格式的文件中。相關系數和相關方向包含了SDGs指標數據較為有價值的相關性信息,其中相關系數反映了指標之間的相關程度,進而反映了指標之間影響作用的大??;相關方向反映了指標之間互相影響的方向,揭示了SDGs指標之間的促進和制約關系。本數據集為SDGs指標監測和實施提供了一定的參考價值,用戶既可用來分析SDGs指標之間促進和制約的關系,亦可參考制定相應政策。
                    致 謝
                    感謝基金項目對于本研究的支持,以及感謝Sachs J、Schmidt-Traub等人提供的原始數據。
                    [1]
                    ASSEMBLY G. Resolution adopted by the General Assembly on 19 September 2016[R]. A/RES/71/1, 3 October 2016 (The New York Declaration), 2015.
                    [2]
                    朱婧, 孫新章, 何正. SDGs 框架下中國可持續發展評價指標研究[J]. 中國人口·資源與環境, 2018, 28(12): 9-18.
                    [3]
                    SACHS J, SCHMIDT-TRAUB G, KROLL C, et al. The Sustainable Development Goals and COVID-19[R]. Sustainable Development Report, 2020.
                    [4]
                    PEARSON K. Notes on the history of correlation[J]. Biometrika, 1920, 13(1): 25-45.
                    [5]
                    KENDALL M G. A new measure of rank correlation[J]. Biometrika, 1938, 30(1/2): 81-93.
                    [6]
                    RESHEF D N, RESHEF Y A, FINUCANE H K, et al. Detecting novel associations in large data sets[J]. science, 2011, 334(6062): 1518-1524.
                    [7]
                    樊嶸, 孟大志, 徐大舜. 統計相關性分析方法研究進展[J]. 數學建模及其應用, 2014, 3(1): 1.
                    [8]
                    TROYANSKAYA O, CANTOR M, SHERLOCK G, et al. Missing value estimation methods for DNA microarrays[J]. Bioinformatics, 2001, 17(6): 520-525.
                    [9]
                    World Population Review. GDP Ranked by Country 2020[EB/OL]. (2018–08–21) [2020–12–05]. https://worldpopulationreview.com/countries/countries-by-gdp.
                    [10]
                    楊甲森. 衛星遙測數據相關性知識發現方法研究[D]. 中國科學院大學 (中國科學院國家空間科學中心), 2019.
                    [11]
                    陳志芳, 李國暉. 概率論與數理統計[M]. 北京: 科學出版社, 2016.
                    [12]
                    孫山澤. 非參數統計講義[M]. 北京: 北京大學出版社, 2000.
                    數據引用格式
                    高天, 張麗麗, 黎建輝. 2000–2017年聯合國各成員國的SDGs指標對相關性系數數據集[DB/OL]. Science Data Bank, 2021. (2021-01-15). DOI: 10.11922/sciencedb.j00001.00217.
                    稿件與作者信息
                    論文引用格式
                    高天, 張麗麗, 黎建輝. 2000–2017年聯合國各成員國的SDGs指標對相關性系數數據集[J/OL]. 中國科學數據, 2021, 6(1). (2021-01-15). DOI: 10.11922/csdata.2021.0008.zh.
                    高天
                    Gao Tian
                    主要承擔工作:數據處理、論文撰寫。
                    (1995—),男,內蒙古呼和浩特市人,在讀碩士研究生,研究方向為大數據挖掘與應用。
                    張麗麗
                    Zhang Lili
                    主要承擔工作:數據校核、質量控制。
                    (1984—),女,高級工程師,研究方向為開放科學、開放數據技術政策,信息經濟學。
                    黎建輝
                    Li Jianhui
                    主要承擔工作:文章框架和方向的把握。
                    lijh@cnic.cn
                    (1973—),男,研究員,研究方向為大數據資源開放共享、大數據管理技術、大數據計算與分析技術等。
                    出版歷史
                    I區發布時間:2021年1月31日 ( 版本ZH2
                    II區出版時間:2021年3月29日 ( 版本ZH3
                    參考文獻列表中查看
                    中國科學數據
                    csdata