<em id="lj1v3"><b id="lj1v3"></b></em>

    <i id="lj1v3"></i>

        <i id="lj1v3"><b id="lj1v3"><progress id="lj1v3"></progress></b></i>

        <video id="lj1v3"></video>
        <video id="lj1v3"></video>

                    <i id="lj1v3"><ol id="lj1v3"><progress id="lj1v3"></progress></ol></i>
                    其他數據論文 II 區論文(已發表) ? 版本 ZH1 Vol 6 (1) 2021
                    下載
                    中國典型城市建筑物實例數據集
                    A dataset of building instances of typical cities in China
                    ?>>
                    : 2021 - 02 - 11
                    : 2021 - 03 - 25
                    : 2021 - 02 - 26
                    : 2021 - 03 - 30
                    极速快三
                    275 3 0
                    摘要&關鍵詞
                    摘要:建筑物輪廓信息是國家基礎地理信息的重要組成部分。高精度建筑物輪廓自動提取往往依賴于大規模的建筑物標注樣本。為了豐富中國地區建筑物提取數據集,本文研究以高分辨率遙感影像為數據源,采用人工標注與交互式標注相結合的方式構建形成中國典型城市建筑物實例數據集。本數據集包含7260個影像區域樣本,共63886棟建筑物,分布在北京、上海、深圳及武漢4個城市。數據集由MS COCO 2017格式的標注文件及相應的建筑物掩膜二值圖構成,可為研究高分辨率遙感影像的建筑物檢測和提取提供基礎數據。
                    關鍵詞:建筑物提??;實例分割;高分辨率遙感影像
                    Abstract & Keywords
                    Abstract:?Building contour information is an important part of the national basic geographic information. The performance of building automatic extraction is usually driven by a large number of training samples. To enrich the building extraction datasets of cities in China, we compiled a building instance dataset sourced from high-resolution remote sensing images through the combination of manual annotation and interactive annotation. This dataset consists of the samples in 7,260 regions, with 63,886 building instances in four China’s cities: Beijing, Shanghai, Shenzhen and Wuhan. The annotations of the dataset consist of MS COCO 2017 format files and the corresponding building mask binary maps. This dataset provides fundamental data for the research on building detection of and extraction from high-resolution remote sensing images.
                    Keywords:?building extraction;?instance segmentation;?high-resolution remote sensing images
                    數據庫(集)基本信息簡介
                    數據庫(集)名稱中國典型城市建筑物實例數據集
                    數據作者吳開順,鄭道遠,陳妍伶,曾林蕓,張嘉輝,柴生華,徐文杰,楊永亮,李圣文,劉袁緣,方芳
                    數據通信作者方芳(fangfang@cug.edu.cn)
                    數據時間范圍2017–2019年
                    地理區域中國
                    空間分辨率0.29 m
                    數據量約5000 MB
                    數據格式*.tif, *.json, *.png
                    數據服務系統網址https://doi.org/10.11922/sciencedb.00620
                    基金項目國家對地觀測科學數據中心開放基金項目(NODAOP2020015)
                    數據庫(集)組成數據集包括7260個區域樣本,由3部分信息構成:(1) *.tif存儲了遙感影像瓦片;(2) *.json描述了建筑物標注,包含訓練集和測試集兩個文件,可用于實例分割任務;(3) *.png存儲了建筑物區域的像素級語義標簽,可用于語義分割任務。
                    Dataset Profile
                    TitleA dataset of building instances of typical cities in China
                    Data corresponding authorFANG Fang (fangfang@cug.edu.cn)
                    Data authorsWU Kaishun, ZHENG Daoyuan, CHEN Yanling, ZENG Linyun, ZHAN Jiahuig, CHAI Shenghuai, XU Wenjie, YANG Yongliang, LI Shengwen, LIU YuanYuan, FANG Fang
                    Time range2017–2019
                    Geographical scopeChina
                    Spatial resolution0.29 m
                    Data volumeabout 5,000 MB
                    Data format*.tif, *.json, *.png
                    Data service system<https://doi.org/10.11922/sciencedb.00620>
                    Source of fundingOpen Research Fund of National Earth Observation Data Center (NODAOP2020015)
                    Dataset compositionThe dataset consists of samples in 7,260 regions, with three types of files: (1) *.tif files, storing the information about high-resolution remote sensing images; (2) *.json files, used for instance segmentation tasks, and describing building annotation data, including the training set and the test set; (3) *.png flies, the pixel-level semantic label of building area, used for semantic classification tasks.
                    引 言
                    建筑物輪廓信息是最重要的基礎地理信息之一,在日常生活、經濟建設和**建設中發揮著重要的作用。遙感影像建筑物檢測和提取在城市規劃、人口估計、地形圖制作和更新等應用中都具有極為重要的意義[1]。相比人工遙感解譯與矢量化,自動化的遙感影像建筑物輪廓提取方法,不僅節省人力物力,而且效率高、信息提取周期短。
                    近年來,隨著深度學習技術的不斷發展,出現了基于深度學習的高精度建筑物輪廓信息自動提取方法,識別精度獲得顯著提升。大量的數據樣本是訓練深度學習模型、提升建筑物自動提取性能的關鍵。在計算機視覺領域,ImageNet[2]、MS COCO[3]等開放數據集極大地促進了深度學習方法的發展。然而,可供開放使用的建筑物提取數據集相對缺乏[1]。目前常用的建筑物提取數據集主要有AIRS 數據集[4]、WHU建筑物數據集[1]和Inria遙感影像數據集[5]。此外,馬薩諸塞數據集[6]由于影像質量和分辨率較低,較少應用于建筑物提取的相關研究;ISPRS[7]及競賽數據集[8]覆蓋區域過小,很難反映出建筑物的多樣性。需要指出的是,遙感影像中的建筑物影像在時空分布、形態、背景環境上存在較大差異,模型精度和泛化能力與訓練時采用的數據集密切相關。但是目前尚未見發表中國地區的建筑物提取公開數據集,這在一定程度上制約著適應中國地區建筑物自動提取方法及應用的研究。
                    筆者基于高分辨率遙感影像構建了中國地區面向城市建筑物檢測和提取的建筑物實例分割數據集。本數據集覆蓋了國內4個具有代表性的城市,反映國內城市建筑物自身和背景環境的特點,為中國基礎數據的構建提供數據支撐,以期推進相關學術的深入研究。
                    1 ? 數據采集和處理方法
                    本數據集選取北京、上海、深圳、武漢等4個具有代表性的城市中心城區作為數據采集目標區域,具體位置如表1所示。原始數據源自由谷歌提供的19級衛星影像,地面分辨率為0.29 m。為了提高數據集的通用性,數據區域的選取包括正射影像和非正射影像區域、建筑物稀疏分布和密集分布區域,同時考慮建筑物輪廓形狀多樣性等因素。數據集樣本覆蓋區域共計約120平方公里。
                    表1 ? 數據采集目標區域信息
                    城市名數據所在經緯度范圍樣本區域面積(km2區域建筑物數(棟)
                    北京116.1605°–116.4111°E,39.8701°–40.0974°N25.4815205
                    上海121.3288°–121.6262°E,30.8819°–31.5582°N20.8513487
                    深圳113.7552°–114.0738°E,22.5432°–22.7815°N42.6627018
                    武漢114.1418°–114.3718°E,30.4768°–30.6800°N35.338176
                    數據處理及標注的流程如圖1所示,處理流程主要包含數據預處理階段、人工標注階段和人機交互標注階段。


                    圖1 ? 數據處理流程圖
                    首先,在數據預處理階段,針對4個城市的原始衛星影像,人工篩選并截取無重疊的82塊5000×5000像素大小的影像區域。同時,參考現有標準實例分割數據集格式,將每幅影像統一切割為100幅500×500像素大小的瓦片。本數據集從以上瓦片數據中隨機選取7260個區域作為樣本進行標注,其中北京2237個,深圳2344個,上海1231個,武漢1448個。
                    在人工標注階段,首先采用數據標注軟件(labelme[9])對20%的遙感影像數據建筑物輪廓進行標注,形成初始樣本集;隨后,基于初始樣本集訓練神經網絡模型,使模型具有初步處理的能力。
                    在交互式標注階段,借鑒反向傳播修正機制(Backpropagating Refinement Scheme,BRS)[10]對其余80%的數據進行交互式數據標注。最終獲得全部數據的建筑物實例標簽,完成數據集的制作。
                    2 ? 數據樣本描述
                    本數據集以“遙感影像+數據標注文件”的形式組織存儲,分別存儲原始遙感影像和所對應的建筑物輪廓標注信息。數據集樣本包括訓練集和測試集兩個文件夾,每個文件夾包含一個遙感影像數據文件夾和一個json格式標注文件。數據集的文件組織形式如表2所示。
                    表2 ? 數據集文件組織形式
                    文件夾文件內容文件說明
                    trainImages/*.tif訓練集影像目錄
                    PNG/*.png訓練集像素標簽
                    Annotations.json訓練集標注文件
                    testImages/*.tif測試集影像目錄
                    PNG/*.png測試集像素標簽
                    Annotations.json測試集標注文件
                    其中,tif格式文件為500×500像素的包含位置信息的原始遙感影像;json格式文件則描述了該遙感影像所對應的建筑物輪廓標注信息,主要包括4個方面的信息:info、images、categories和annotations。其中,info記錄的是數據集的制作年份、版本、描述等基本信息;images記錄了數據集中影像的大小等信息;categories將類別從名稱映射到類別編號;annotations則記錄了標注編號、標注對應的影像編號、建筑物輪廓點坐標等標注信息。數據標注文件的組織形式如圖2所示。


                    圖2 ? 數據標注文件的組織形式
                    圖3展示了在4個城市中選取的具有代表性的遙感影像及相應的建筑物輪廓。


                    圖3 ? 數據集樣例展示
                    (a)北京 (b)上海 (c)深圳 (d)武漢
                    3 ? 數據質量控制和評估
                    為保證數據集質量,我們在影像整理和檢查、人工標注和交互式標注階段均采用了完整的質量控制過程(如圖4所示),通過多重檢查保證標注數據的可靠性、完整性和統一性。


                    圖4 ? 數據集質量控制過程
                    在影像整理和檢查階段,人工剔除了失真、畸變、模糊等影像,以減少原始影像引入的噪聲。在人工標注階段采用人工交叉檢驗方法檢查標注結果并修正發現的問題,檢查內容包括標注輪廓不完整、建筑物標注遺漏以及非建筑物誤標注為建筑物等。交互式標注階段則重點檢查標簽文件的準確性、一致性,確保標注質量。為避免影像標簽缺失、標簽與影像匹配錯誤等問題,我們采用循環遍歷算法進行檢驗,并對錯誤數據逐一確認和修改。
                    此外,在制作最終的標注文件之前,為了確保數據組織按照既定的規則進行,所有的遙感影像及其所對應的標注信息均通過程序自動從原始數據中讀取得到,并按照規則批量化自動命名,最后采取人工方式進行復核。通過以上步驟,本數據集的質量能夠得到良好的保證。
                    4 ? 數據價值
                    本數據集是首個公開的取材于國內城市的高分辨率遙感影像城市建筑物輪廓的實例分割數據集,從一定程度上反映了國內的建筑物特征和遙感影像的關系,豐富了遙感領域建筑物數據集,有望更好地支撐國內遙感影像建筑物提取的研究和生產。本數據集的組織和標注方式與常用實例分割數據集一致,可以很方便地服務于影像分割任務。
                    5 ? 數據使用方法和建議
                    本數據集可用于實例分割任務和基于像素級別的語義分割任務。數據集的使用方法與常用于上述兩種分割任務的標準數據集使用方法一致,總體步驟如圖5所示。


                    圖5 ? 數據使用流程
                    對于實例分割任務,本數據集采用的標注格式與實例分割數據集MS COCO相同,使用方式相同。實例分割任務可通過解析json文件,從annotations字段中批量讀取建筑物輪廓標注;從images字段中獲取影像存儲路徑,進而獲取實例標注所對應的建筑物影像。實例分割模型可將獲取的標注和影像兩類信息作為輸入,進行模型的訓練和預測。
                    語義分割的類別標簽是像素級的,其中建筑物區域對應的像素值為1,非建筑物區域對應的像素值為0。每個樣本的標簽存儲在一個png文件中,其原始影像文件存儲在與標簽相同文件名的tif文件中。語義分割任務依次讀取每個樣本的標注和影像文件,輸入到語義分割模型中進行訓練和預測。
                    后續過程需根據實際任務進行設計,主要包括模型訓練、預測和精度驗證等。兩種任務使用中的模型也在不斷發展,現有經典模型如Mask R-CNN[11],DeepLabv3[12]等,此文不再贅述。
                    [1]
                    JI S P, WEI S Q, LU M. Fully Convolutional Networks for Multisource Building Extraction from an Open Aerial and Satellite Imagery Data Set[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 57(1): 574-586.
                    [2]
                    DENG J, DONG W, SOCHER R, et al. ImageNet: A large-scale hierarchical image database[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Miami, FL, USA, 2009.
                    [3]
                    LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: Common Objects in Context[C]. Proceedings of the European Conference on Computer Vision, Springer, Cham, 2014.
                    [4]
                    CHEN Q, WANG L, WU Y, et al. Aerial imagery for roof segmentation: A large-scale dataset towards automatic mapping of buildings[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2019, 147: 42-55.
                    [5]
                    MAGGIORI E, TARABALKA Y, CHARPIAT G, et al. Can semantic labeling methods generalize to any city? The INRIA aerial image labeling benchmark[C]. Proceedings of the IEEE International Geoscience and Remote Sensing Symposium (IGARSS), Fort Worth, TX, USA, 2017.
                    [6]
                    MNIH V. Machine learning for aerial image labeling[M]. Canada: University of Toronto, 2013.
                    [7]
                    GERKE M, ROTTENSTEINER F, WEGNER J D, et al. ISPRS Semantic Labeling Contest[EB/OL].(2014) [2021–02–03]. http://www2.isprs.org/semantic-labeling.html.
                    [8]
                    LE S B, YOKOYA N , HANSCH R, et al. 2018 IEEE GRSS Data Fusion Contest: Multimodal Land Use Classification [Technical Committees][J]. IEEE Geoscience and Remote Sensing Magazine, 2018, 6(1): 52-54.
                    [9]
                    RUSSELL B C, TORRALBA A, MURPHY K P, et al. A Database and Web-Based Tool for Image Annotation[J]. International Journal of Computer Vision, 2008, 77(1-3):157-173.
                    [10]
                    KONSTANTIN S, ILIA P, OLGA B, et al. F-BRS: Rethinking Backpropagating Refinement for Interactive Segmentation[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA,USA,2020.
                    [11]
                    HE K M, GKIOXARI G, DOLLAR P, et al. Mask R-CNN[C]. Proceedings of the IEEE International Conference on Computer Vision (ICCV), Venice, Italy, 2017.
                    [12]
                    Liang-Chieh Chen, Yukun Zhu, George Papandreou, et al. Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation[C]. Proceedings of the European Conference on Computer Vision(ECCV), Munich, Germany, 2018.
                    數據引用格式
                    方芳, 吳開順, 鄭道遠, 等. 中國典型城市建筑物實例數據集[DB/OL]. Science Data Bank, 2021. (2021-03-19). DOI: 10.11922/sciencedb.00620.
                    稿件與作者信息
                    論文引用格式
                    方芳, 吳開順, 鄭道遠, 等.中國典型城市建筑物實例數據集[J/OL]. 中國科學數據, 2021, 6(1). (2021-03-19). DOI: 10.11922/noda.2021.0013.zh.
                    吳開順
                    WU Kaishun
                    主要承擔工作:數據集整體結構設計,交互式標注算法研究與實現。
                    (1995—),男,四川省彭州市人,在讀碩士研究生,研究方向為圖像智能處理及遙感應用。
                    鄭道遠
                    ZHENG Daoyuan
                    主要承擔工作:數據集人工及交互式標注,論文初稿撰寫。
                    (1999—),男,湖北省荊州市人,在讀碩士研究生,研究方向為目標檢測、圖像分割及遙感應用。
                    陳妍伶
                    CHEN Yanling
                    主要承擔工作:數據集人工及交互式標注。
                    (1997—),女,四川省射洪市人,在讀碩士研究生,研究方向為大數據城市意向分析。
                    曾林蕓
                    ZENG Linyun
                    主要承擔工作:數據集人工及交互式標注。
                    (1996—),女,四川省成都市人,在讀碩士研究生,研究方向為圖卷積神經網絡及應用。
                    張嘉輝
                    ZHANG Jiahui
                    主要承擔工作:數據集人工及交互式標注。
                    (1998—),女,山東省濰坊市人,在讀碩士研究生,研究方向為多模態圖像數據融合及應用。
                    柴生華
                    CHAI Shenghua
                    主要承擔工作:數據集人工標注。
                    (2000—),男,河北省承德市人,在讀本科生。
                    徐文杰
                    WU Wenjie
                    主要承擔工作:數據集人工標注。
                    (2000—),男,湖北省武漢市人,在讀本科生。
                    楊永亮
                    YANG Yongliang
                    主要承擔工作:數據集人工標注。
                    (1999—),男,甘肅省武威市人,在讀本科生。
                    李圣文
                    LI Shengwen
                    主要承擔工作:論文方向指導與質量把關。
                    (1978—),男,山東省濟寧市人,博士,副教授,研究方向為時空大數據挖掘與機器學習。
                    劉袁緣
                    LIU YuanYuan
                    主要承擔工作:算法指導。
                    (1984—),女,江西省景德鎮人,博士,副教授,研究方向為計算機視覺。
                    方芳
                    FANG Fang
                    主要承擔工作:項目規劃與論文質量把關。
                    fangfang@cug.edu.cn
                    (1976—)女,湖北省黃岡市人,博士,副教授,研究方向為智能信息處理。
                    出版歷史
                    II區出版時間:2021年3月30日 ( 版本ZH1
                    參考文獻列表中查看
                    中國科學數據
                    csdata