山東省街道/鄉鎮級格網化人口空間分布數據集(2000、2010年)

維基文庫,自由的圖書館
山東省街道/鄉鎮級格網化人口空間分布數據集(2000、2010年)
作者:王明明 王卷樂
2019年9月20日
本作品收錄於《中國科學數據
王明明, 王卷樂. 山東省街道/鄉鎮級格網化人口空間分布數據集(2000、2010年)[J/OL]. 中國科學數據, 2019, 4(3). (2019-04-18). DOI: 10.11922/csdata.2019.0005.zh.


摘要&關鍵詞[編輯]

摘要:格網化人口空間分布數據是更精細尺度的人口空間分布數據,對於支持地理、資源、環境、生態、災害,以及可持續發展等方面的研究具有重要意義。本文以山東省街道/鄉鎮級人口統計數據為控制單元,在城鄉二級分區的基礎上,將基於增強型植被指數修正的夜間燈光數據和土地利用數據相結合的空間化方法,產出了SDpop2000和SDpop2010兩期山東省100 m格網人口空間分布數據集。模型精度驗證結果顯示2000年與2010年分別有78.0%和78.4%的行政單元的相對誤差絕對值小於20%。空間化結果與精度較高的全球WorldPop人口數據產品對比分析,結果顯示:2000年的相關係數和相對均方根誤差分別為0.932和38.42%,2010年的相關係數和相對均方根誤差分別為0.948和40.46%。

關鍵詞:人口;空間化;夜間燈光數據;土地利用數據;街道/鄉鎮級;山東省

Abstract & Keywords[編輯]

Abstract: Capturing a fine-scale population spatial distribution, gridded data is of great significance for supporting research on geography, resources, environment, ecology, disasters, and sustainable development. On the basis of urban-rural partition and township-level demographic data, this study uses the spatialization method that combines enhanced vegetation index adjusted nighttime light index and land use data to produce the gridded population data of Shandong Province, namely, SDpop2000 and SDpop2010 (100 m resolution). The model verification results showed that 78.0% of the administrative units in 2000 and 78.4% in 2010 had an absolute relative error of less than 20%. When validated against global WorldPop population data products, our dataset demonstrated a correlation coefficient and a %RMSE of 0.932 and 38.42% in 2000 respectively, and 0.948 and 40.46% in 2010.

Keywords: population; spatialization; nighttime light data; land use data; township-level; Shandong Province

數據庫(集)基本信息簡介[編輯]

數據庫(集)名稱 山東省街道/鄉鎮級格網化人口空間分布數據集(2000、2010年)
數據作者 王明明、王卷樂
數據通信作者 王卷樂(wangjl@igsnrr.ac.cn)
數據時間範圍 2000、2010年
地理區域 中國山東省(34°22′54″–38°24′0.6″N,114°47′30″–122°42′18″E)
空間分辨率 100 m
數據量 36.07 MB
數據格式 *.tif, *.jpg
數據服務系統網址 http://www.sciencedb.cn/dataSet/handle/736
基金項目 中國科學院戰略性先導科技專項(A類)資助(XDA19040501);中國科學院「十三五」信息化專項科學大數據工程項目(XXH13505-07)。
數據庫(集)組成 本數據集由2部分組成:(1)「Dataset Result.Zip」包含2000年和2010年山東省格網人口空間分布數據。數據命名格式為SDpopYYYY.tif,YYYY代表年份。數據量為13.42 MB。(2)「Dataset Map.Zip」包含2000年和2010年山東省格網人口空間分布圖。數據命名格式為SDpopYYYY.jpg。數據量為22.65 MB。

Dataset Profile[編輯]

Title Gridded data of township-level population distribution in Shandong Province (2000 & 2010)
Data corresponding author Wang Juanle (wangjl@igsnrr.ac.cn)
Data authors Wang Mingming, Wang Juanle
Time range 2000, 2010
Geographical scope Shandong Province, China (34°22′54″N–38°24′0.6″N, 114°47′30″E–122°42′18″E)
Spatial resolution 100 m
Data volume 36.07 MB
Data format *.tif, *.jpg
Data service system <http://www.sciencedb.cn/dataSet/handle/736>
Sources of funding Strategic Priority Research Program of the Chinese Academy of Sciences (XDA19040501); Scientific Data Project of the 13th Five-Year Informatization Program of the Chinese Academy of Sciences (XXH13505-07).
Dataset composition The dataset is composed of two subsets: (1) Gridded data of population spatial distribution in Shandong Province (2000 & 2010), with a data volume of 13.42 MB. Each data document is recorded as SDpopYYYY.tif, where YYYY represents the year. (2) Gridded map of population spatial distribution in Shandong Province (2000 & 2010), with a data volume of 22.65 MB. Each data document is recorded as SDpopYYYY.jpg.


引 言[編輯]

街道/鄉鎮級人口統計數據是我國目前公開的最精細的統計數據,街道/鄉鎮級人口空間分布數據成為地學研究的重要需求之一,但單純地將統計數據以行政區劃為單元分布到空間,往往存在行政單元尺度不夠精細[1]、行政區劃系統存在變動[2]、行政邊界造成地學研究中的「可變元問題」[3]等不足。格網化人口空間分布數據是傳統人口統計數據的拓展和補充,其實現了行政單元尺度人口的重新展布,有效克服了人口統計數據存在的不足,對地理、資源、環境、生態、災害以及可持續發展等跨學科研究具有重要意義。

目前涉及中國區域的格網化人口數據已有中國人口空間分布公里網格數據集(Chpop)、全球柵格人口數據集(GPW)、全球農村城鎮製圖計劃數據集(GRUMP)和世界人口計劃數據集(Worldpop)等,這些數據集中除了GPW外,其他均是以縣級人口統計數據為基礎,藉助人口統計數據與土地利用、夜間燈光和土地覆被等數據的關係建立空間分布模型。儘管GPW使用了2010年的街道/鄉鎮級人口統計數據,但其街道/鄉鎮級行政邊界數據不是實際邊界數據,而是採用特殊方法的模擬數據[4]。可見,真實的街道/鄉鎮級人口格網化數據產品目前是極為貧乏的。究其原因在於三點,一是街道/鄉鎮級行政區劃矢量數據獲取困難,且存在大量的行政區劃和地名變更問題,難以直接利用。二是,街道/鄉鎮級人口統計數據的空間關聯需要進行大量的涉及鄉鎮(街道)地名和行政區劃的空間數據匹配處理工作,非專業的團隊難以完成。三是,空間化的方法單一,缺少多源數據和中國人口地理學特點的綜合運用,例如中國人口分布的城鄉二級分布特徵。以上這些原因使得當前人口數據空間化研究多是基於縣級人口統計數據[5][6][7][8],即使有個別街道/鄉鎮級的研究[9][10],也只停留在小範圍內。針對這一需求,本文完成了2000年和2010年山東省街道/鄉鎮級人口匹配處理,並利用土地利用數據和夜間燈光數據相結合的空間化方法,實現了兩期人口數據的空間化工作。其中土地利用數據和街道/鄉鎮級行政單元相結合構建城鄉二級分區方法,增強型植被指數(EVI)對DMSP/OLS夜間燈光數據進行修正,保證了空間化模型的精度。

1 數據採集和處理方法[編輯]

1.1 數據來源[編輯]

生產本數據集所採用的數據包括DMSP/OLS夜間非輻射定標的平均穩態數據、EVI、土地利用數據、世界人口計劃數據集WorldPop、街道/鄉鎮級人口統計數據和行政邊界數據。數據的相關參數和來源如表1中所示。


表1 數據源詳細信息

序號 名稱 分辨率 時間(年份) 來源 網址
1 DMSP/OLS夜間非輻射定標的平均穩態數據 30″ 2000/2010 美國國家環境數據中心 https://www.ncei.noaa.gov/
2 EVI 250 m 2000/2010 美國NASA一級大氣存檔和分配系統數據中心 https://ladsweb.modaps.eosdis.nasa.gov/
3 土地利用數據 100 m 2000/2010 國家科技基礎條件平台—國家地球系統科學數據共享平台 http://www.geodata.cn/
4 WorldPop 3″ 2000/2010 WorldPop project官方網站 https://www.worldpop.org/
5 街道/鄉鎮級行政邊界數據 1:25萬 2000 國家科技基礎條件平台—國家地球系統科學數據共享平台 http://www.geodata.cn/
6 街道/鄉鎮級人口統計數據 2000/2010 中國知網 http://www.cnki.net/


1.2 數據處理[編輯]

(1)街道/鄉鎮級人口空間數據

街道/鄉鎮級人口空間數據製作需要將街道/鄉鎮級人口統計數據與街道/鄉鎮級行政區劃矢量數據的屬性進行關聯,實現街道/鄉鎮級人口統計值在空間上的分布。本文採用決策樹的思想實現兩者的屬性關聯,過程如圖1所示。


圖片

圖1 街道/鄉鎮級人口空間數據製作流程


(2)夜間燈光數據

DMSP/OLS夜間燈光數據由於OLS傳感器本身的缺陷存在飽和溢出現象,會影響到城市中心人口數據空間化的精度。有研究表明可以通過EVI對DMSP/OLS夜間燈光數據進行修正,生成增強型植被指數調整的夜間燈光指數(EANTLI),修正公式如式(1)[11]

圖片 (1)

式中,圖片為歸一化後的DMSP/OLS夜間燈光指數,圖片為處理後的EVI數據,NTL為原始DMSP/OLS夜間燈光指數。

(3)城鄉二級分區

建模之前將樣本進行二級分區處理,技術流程如圖2。一級分區:利用土地利用數據將所有行政單元分為城鎮地區(A1)、農村地區和其餘地區。其中城鎮地區中的居民地類型只包含城鎮用地,農村地區的居民地類型只包含農村居民點,其餘地區則包含這兩種居民地類型。二級分區:以1∶4∶1的比例將農村地區分為低人口密度區(A2)、中人口密度區(A3)和高人口密度區(A4);根據模型檢驗結果將其餘地區分為A5(相對誤差絕對值<20%)、A6(相對誤差<−20%)和A7(相對誤差>20%)3個分區。


圖片

圖2 城鄉二級分區和建模技術流程圖


(4)空間化模型

分別利用線性回歸模型和多層感知器(MLP)人工神經網絡模型建立人口數據空間化模型。A1、A2、A3和A4分區的建模結果依次對應圖2中的方程式1–4。

①線性回歸模型。A1分區的人口數據空間化模型如式(2)所示,A2、A3和A4分區的人口數據空間化模型如式(3)所示。

圖片 (2)

圖片 (3)

式中,圖片圖片為街道/鄉鎮級行政單元內的人口值;圖片為行政單元中城鎮用地範圍內的EANTLI燈光強度值;圖片圖片為回歸係數;圖片圖片為常數項;圖片為行政單元中農村居民點的面積;圖片表示第i個分區,取值分別為2、3、4。

②MLP人工神經網絡模型。在A1、A2、A3和A4分區,將土地利用數據和EANTLI夜間燈光數據作為輸入層,街道/鄉鎮級人口統計數據作為輸出層,包含一個隱藏層,模型如式(4)和式(5)所示。

圖片 (4)

圖片 (5)

式中,G為隱藏層到輸出層的邏輯回歸函數,S為輸入層到隱藏層的函數,圖片圖片分別為輸入層到隱藏層和隱藏層到輸出層的權重,圖片圖片分別為輸入層到隱藏層和隱藏層到輸出層的偏置,圖片和a為變量。

(5)格網單元人口模擬

選取模型精度最優的空間化模型模擬格網單元的人口值。經後文模型精度驗證可知,線性回歸模型的精度優於MLP人工神經網絡模型的精度,因此本文利用線性回歸模型的建模結果模擬格網單元的人口值。其中A1、A2、A3和A4分區依次利用方程式1–4模擬,A5分區利用方程式1和方程式3模擬,A6分區利用方程式1和方程式2模擬,A7分區利用方程式1和方程式4模擬。

(6)格網單元人口修正

由於模型公式存在一定的誤差,行政單元內的人口模擬值和人口統計值不一致。建立人口模擬修正公式,見式(6),對格網內的人口模擬值進行調整。

圖片 (6)

式中,圖片表示第i個行政單元內第j個格網單元人口模擬的修正值;圖片表示第i個行政單元內第j個格網單元初始人口模擬值;圖片表示第i個行政單元的初始人口模擬值;圖片表示第i個行政單元的人口統計值。

2 數據樣本描述[編輯]

經過數據處理得到2000年和2010年山東省100 m格網人口空間分布數據集(圖3、圖4)。本數據集比較清晰地反映了山東省的人口分布特點,高人口密度主要集中在濟南、青島、濰坊、淄博、煙臺、德州、威海和濟寧等地級城市駐地處,濟南和青島兩地的人口密度和數量最高;魯北沿海、魯中山地丘陵區和濟寧南部的人口分布較為稀少。從2000年到2010年的人口分布變化來看,地級城市高人口密度區有明顯的擴大,2010年的最大人口密度值較2000年有所提高。


圖片

圖3 2000年山東省格網人口空間分布數據


圖片

圖4 2010年山東省格網人口空間分布數據


3 數據質量控制和評估[編輯]

3.1 質量控制[編輯]

本文利用街道/鄉鎮級人口統計數據作為基礎數據、運用城鄉二級分區建模方法、EVI對DMSP/OLS夜間燈光數據進行修正等做法保證空間化產品的精度。為對空間化結果做出準確的評價,本文對空間化模型進行驗證並對空間化結果進行同類產品對比分析。驗證和對比結果如下文所述。

3.2 質量評估[編輯]

(1)模型精度驗證

在模擬格網單元內的人口之前,檢驗空間化模型的精度。利用方程式1–4模擬其餘地區鄉鎮(街道)單元內的人口,按式(7)計算其餘地區街道/鄉鎮級人口統計值和模擬值之間的相對誤差。結果顯示,線性回歸模型中2000年和2010年的其餘地區分別有78.0%和78.4%的行政單元的相對誤差絕對值小於20%,MLP人工神經網絡模型中2000年和2010年的其餘地區分別有71.0%和72.7%的行政單元的相對誤差絕對值小於20%。可見在本文人口數據空間化模型構建中,線性回歸模型比MLP人工神經網絡模型更有優勢。

將線性回歸模型的相對誤差分布到空間(圖5),可以看出誤差較大(相對誤差絕對值大於20%,圖中藍色和紅色區域)的行政單元主要分布於地級城市周邊和北部沿海區域,且2000年的相對誤差在中部山地丘陵區也分布較多。主要原因有以下兩點:①在城市周邊和山地丘陵區容易出現城鎮用地和農村居民點用地的錯分現象;②在沿海地區存在港口碼頭,導致夜間燈光和人口分布的相關性降低。


圖片

圖片

圖5 模型精度檢驗結果空間分布圖


圖片 (7)

式中:圖片為其餘地區第i個行政單元的人口統計值,圖片為其餘地區第i個行政單元的人口模擬值。

(2)空間化結果對比

利用山東省街道/鄉鎮級人口統計數據對Chpop、GPW和Worldpop進行精度評價,計算Chpop2000、GPW2000、WorldPop2000、Chpop2010、GPW2010和Worldpop2010六個數據集街道/鄉鎮級行政單元尺度內的人口模擬值和統計值之間的皮爾遜相關係數(R)、平均絕對誤差(MAE)、均方根誤差(RMSE)和相對均方根誤差(%RMSE),其中%RMSE是將均方根誤差除以人口普查數據的平均值得到,可以反映模型模擬的精度高低[12]。MAE、RMSE和%RMSE的計算公式分別如式(8)、式(9)和式(10)所示,計算結果如表2所示。結果顯示WorldPop的人口模擬值最精確。

圖片 (8)

圖片 (9)

圖片 (10)

式中,圖片為第i個鄉鎮(街道)內的人口模擬值,圖片為第i個鄉鎮(街道)內的人口統計值,N山東省境內街道/鄉鎮級行政單元個數。


表2 山東省格網化人口分布數據集的人口模擬值與統計值的評價指標

數據集 R MAE(人) RMSE(人) %RMSE(%)
Chpop2000 0.703** 16940 38096 77.58
GPW2000 0.920** 13283 22579 45.95
WorldPop2000 0.934** 13042 22428 45.64
Chpop2010 0.599** 19243 30748 57.89
GPW2010 0.796** 13832 24233 45.63
WorldPop2010 0.858** 11756 21225 39.96

註:**表明在0.01水平(雙側)上顯著相關。

利用目前可開放獲取的精度相對最高的人口空間分布數據集WorldPop對本文產出的SDpop2000和SDpop2010進行對比驗證。分別統計WorldPop和SDpop在10 km格網內的人口值,採用散點圖、R、MAE、RMSE和%RMSE來衡量兩者的差異。MAE、RMSE和%RMSE分別採用式(8)、式(9)和式(10)計算,其中圖片圖片分別帶入10 km格網內SDpop和WorldPop的人口模擬值,N代表10 km格網的個數。檢驗結果如表3所示,SDpop與WorldPop的散點圖如圖6所示。


表3 山東省格網化人口空間分布數據驗證結果

數據 R MAE(人) RMSE(人) %RMSE(%)
SDpop2000 0.932** 11598 20028 38.42
SDpop2010 0.948** 13028 22529 40.46

註:**表明在0.01水平(雙側)上顯著相關。


圖片

圖片

圖6 SDpop與WorldPop的10 km格網人口值散點圖


4 數據價值[編輯]

格網化人口空間分布數據打破了行政單元的禁錮,實現了更精細的人口空間分布,這不僅對地理、資源、環境、生態、災害等學科中和人口相關的跨學科研究具有重要意義,而且對政府部門進行土地使用、公共設施和開發計劃等規劃具有重要參考意義。本文通過對街道/鄉鎮級人口統計數據、獨特分區方法和基於EVI修正的夜間燈光數據的使用,有效地提高了人口數據的空間化精度,產出的2000年和2010年山東省格網化人口空間分布數據集,豐富了人口格網化產品。

參考文獻[編輯]

  1. BRIGGS D J, GULLIVER J, FECHT D, et al. Dasymetric modelling of small-area population distribution using land cover and light emissions data[J]. Remote sensing of Environment, 2007, 108(4): 451-466.
  2. ZENG C, ZHOU Y, WANG S, et al. Population spatialization in China based on night-time imagery and land use data[J]. International journal of remote sensing, 2011, 32(24): 9599-9620.
  3. 柏中強, 王卷樂, 楊飛. 人口數據空間化研究綜述[J]. 地理科學進展, 2013, 32(11): 1692-1702.
  4. 柏中強. 基於鄉鎮尺度的中國人口分布格局及空間化問題研究[D]. 北京: 中國科學院大學, 2016.
  5. 譚敏, 劉凱, 柳林, 等. 基於隨機森林模型的珠江三角洲30 m格網人口空間化[J]. 地理科學進展, 2017(10): 122-130.
  6. 陳晴, 侯西勇. 集成土地利用數據和夜間燈光數據優化人口空間化模型[J]. 地球信息科學學報, 2015, 17(11): 1370-1377.
  7. GAUGHAN A E, STEVENS F R, HUANG Z, et al. Spatiotemporal patterns of population in mainland China, 1990 to 2010[J]. Scientific Data, 2016, 3: 160005.
  8. 付晶瑩, 江東, 黃耀歡. 中國公里網格人口分布數據集( PopulationGrid_China ) [DB/OL].全球變化科學研究數據出版系統, 2014. DOI:10.3974/geodb.2014.01.06.V1.
  9. 李翔, 陳振傑, 吳潔璇, 等. 基於夜間燈光數據和空間回歸模型的城市常住人口格網化方法研究[J]. 地球信息科學學報, 2017(10): 42-49.
  10. 柏中強, 王卷樂, 姜浩, 等. 基於多源信息的人口分布格網化方法研究[J]. 地球信息科學學報, 2015, 17(6): 653-660.
  11. 卓莉, 張曉帆, 鄭璟, 等. 基於EVI指數的DMSP/OLS夜間燈光數據去飽和方法[J]. 地理學報, 2015, 70 (8): 1339- 1350.
  12. STEVENS F R, GAUGHAN A E, LINARD C, et al. Disaggregating Census Data for Population Mapping Using Random Forests with Remotely-Sensed and Ancillary Data[J]. PLOS ONE, 2015, 10(2): e0107042. DOI:10.1371/journal.pone.0107042.

數據引用格式[編輯]

王明明, 王卷樂. 山東省街道/鄉鎮級格網化人口空間分布數據集(2000、2010年)[DB/OL]. Science Data Bank, 2019. (2019-02-28). DOI: 10.11922/sciencedb.736.


本作品在「知識共享-署名 4.0 國際」協議下發表。

Public domainPublic domainfalsefalse