蓋孜河谷溜石坡調查和易發性分布數據集

維基文庫,自由的圖書館
蓋孜河谷溜石坡調查和易發性分布數據集
作者:田德宇 張耀南 韓立欽 康建芳 羅立輝 艾鳴浩 敏玉芳
2019年8月20日
本作品收錄於《中國科學數據
田德宇, 張耀南, 韓立欽, 等. 蓋孜河谷溜石坡調查和易發性分布數據集[J/OL]. 中國科學數據, 2019, 4(3). (2019-08-18). DOI: 10.11922/csdata.2018.0078.zh.


摘要&關鍵詞[編輯]

摘要:中巴公路從帕米爾高原東北緣穿過了公格爾–慕士塔格–昆蓋山的冰緣地帶,崩塌及其次生災害溜石坡在蓋孜河谷的公路兩側廣泛發育,在強大外力作用下的迅速前進容易徹底堵塞交通。已有對中巴公路(國內段)的溜石坡災害的調查研究,但是少見評價模擬,也未形成溜石坡的分布數據。本研究引入了數據挖掘的原理和技術來對孕災環境因素進行整合、編碼和轉換,構建了用於溜石坡易發性建模的特徵矩陣,經過模型模擬得到了蓋孜河谷的公路兩側2公里範圍內的溜石坡空間分布數據,溜石坡空間分布的預測精度達到80%。本數據集包含溜石坡野外調查點矢量數據和溜石坡易發性空間分布柵格數據。其中調查點矢量數據記錄了調查點GPS經緯度信息,是珍貴的地面真值數據;而精度可靠的溜石坡空間分布數據同樣具有重要的研究意義和工程應用價值。

關鍵詞:中巴公路;蓋孜河谷;溜石坡;易發性評價;機器學習

Abstract & Keywords[編輯]

Abstract: The Karakoram Highway passes through the preglacial area of Kongur Mountain along the northeastern edge of the Pamirs Plateau. On both sides of the highway along the Gaizi Valley, collapse and secondary disaster stone-slide frequented, sands and stones are thrust by powerful external forces to clog traffic. While stone-slide investigations have been made on the Karakoram Highway (domestic section), evaluation or simulation is rare, and no stone-slide distribution data are formed. In this study, principles and technologies of data mining are introduced to integrate, code and convert environmental factors of disaster, through which a feature matrix is constructed for the easy onset modeling of stone-slide. The spatial distribution of the stone-slide in a 2 km range of both sides along Gaiz Valley is conducted, with a total data accuracy of up to 80%. This dataset consists of vector data of investigation points and grid data of stone-slide spatial distribution. The investigation data records GPS longitudes and latitudes of the investigation point, which is a valuable ground data, while the stone-slide spatial distribution data also have important significance for research and engineering application.

Keywords: Karakoram Highway; Gaizi Valley; stone-slide; susceptibility analysis; machine learning

數據庫(集)基本信息簡介[編輯]

數據庫(集)名稱 蓋孜河谷中巴公路兩側溜石坡易發性分布數據集
數據作者 田德宇、張耀南、韓立欽、羅立輝、艾鳴浩
數據通信作者 張耀南(yaonan@lzb.ac.cn)
數據時間範圍 2017年
地理區域 38°30′N–39°00′N,75°00′E–75°30′E
空間分辨率 30 m
數據量 2694 KB
數據格式 TIF、SHP
數據服務系統網址 http://www.crensed.ac.cn/portal/metadata/9cf11d7a-3b96-4ca7-a96a-57a5c03d6c86
基金項目 國家科技基礎條件平台建設數據共享服務項目(Y719H71006)
數據庫(集)組成 1. 蓋孜河谷溜石坡調查點矢量數據;2. 蓋孜河谷溜石坡易發性空間分布柵格數據。

Dataset Profile[編輯]

Title Data of stone-slide investigation and susceptibility distribution in Gaiz Valley
Data corresponding author Zhang Yaonan (yaonan@lzb.ac.cn)
Data authors Tian Deyu, Zhang Yaonan, Han Liqin, Luo Lihui, Ai Minghao
Time range 2017
Geographical scope 38°30′N–39°00′N, 75°00′E–75°30′E
Spatial resolution 30 m
Data volume 2694 KB
Data format TIF, SHP
Data service system http://www.crensed.ac.cn/portal/metadata/9cf11d7a-3b96-4ca7-a96a-57a5c03d6c86
Sources of funding Data Sharing Fundamental Program for Construction of the National Science and Technology Infrastructure Platform (Y719H71006).
Dataset composition 1.Vector data of investigation points; 2.Raster data of stone-slide susceptibility distribution.


引 言[編輯]

中巴公路從帕米爾高原東北緣穿過了公格爾–慕士塔格–昆蓋山的冰緣地帶(Preglacial Region)(圖1),這裡屬於塔里木河的支流喀什葛爾河流域的主要組成部分。崩塌及其次生災害溜石坡在蓋孜河谷的公路兩側廣泛發育,堆積物有砂石也有大的礫石,其緩慢前進對公路邊坡損害較大,堆積物甚至可以蔓延到路面,在強大外力作用下的迅速推進容易徹底堵塞交通[1]。特別是,溜石坡是中巴公路北部地區廣泛發育的一類天然崩積坡,呈錐形或面坡形態沿公路延伸,其形態、


圖片

圖1 蓋孜河谷所在流域示意圖


顆粒、沉積等特徵有別於川藏公路沿線的典型溜砂坡[2]。王宗盛[1]對中巴公路(國內段)的溜石坡災害有過調查研究,但是少見針對這類災害的評價模擬,也未形成溜石坡的分布數據集,因此本工作對於溜石坡災害的評價模擬研究具有較為重要的意義,在工程地質防治方面具有啟迪和應用價值。

基於數據驅動的方法的一個重要建模思路是機器學習,近年來被廣泛用於地質災害的評價模擬研究。針對地質災害的評價模擬,雖然基於規則的方法在樣本數據未知的情況下具有一定的優勢,但是機器學習方法的優化問題求解能力和對隨機過程的模擬能力遠遠優於基於規則的方法。溜石坡調查資料是珍貴的現場地質調查資料,該數據利用GPS測量在蓋孜河谷採集。本文基於溜石坡調查資料進行數據驅動建模得到溜石坡的空間分布數據集。本數據集在災害評價研究領域和工程地質領域都具有潛在的可重用性。

1 數據採集和處理方法[編輯]

1.1 數據來源與預處理[編輯]

在同一個坐標空間對慕士塔格山周圍的ASTER GDEM產品、STRM DEM產品以及ASTER L1T單景DEM製作三維散點圖(圖2),發現ASTER L1T單景DEM(圖中紅色)有明顯異常,ASTER GDEM(圖中綠色)和STRM DEM(圖中黃色)無明顯異常,但是STRM DEM最大值比慕士塔格峰主峰海拔多出200 m以上,而ASTER GDEM的最大值最接近最高值,最終選擇ASTER GDEM參與到整個研究中。


圖片

圖2 高程數據比較散點圖


土壤類型數據依據聯合國糧農組織製作的FAO土壤分類體系,擁有優於1公里的水平分辨率[3]。在這個分類體系下,不同類型土壤數據定義可能不同:比如淺層土(Leptosol,LP)是依據土壤形成的地形條件定義,主要指侵蝕的高地。鈣積土(Calcisol,CL)、石膏土(Gypsisol,GY)、栗鈣土(Kastanozem,KS)、黑土(Phaeozem,PH)等是依據土壤形成的氣候、時間以及有機體等條件定義。該數據可在寒區旱區科學數據中心免費獲取(http://westdc.westgis.ac.cn/data/844010ba-d359-4020-bf76-2b58806f9205),中国境内的数据源为第二次全国土地调查的1∶100万土壤数据。将研究区的数据重投影为UTM Zone 43N World WGS-84坐標系,重採樣為30 m的分辨率。根據這份數據,研究區內除冰川外共有土壤類型12種。基於這份數據的對比分析發現:其一,這份數據的冰川(代碼11930)範圍與Landsat 8 運行陸地成像儀(Operational Land Imager,OLI)融雪末影像提取的最新冰川的邊緣差異很大;其二,冰川末梢冰緣地帶的土壤類型均為薄層土。因此對獲得研究區的這份土壤類型數據進行修正,調整後的土壤類型包含5類,分別是淺層土、黑土、石膏土、鈣積土、栗鈣土,此外還有冰川、水體2種水體。

區域岩性地圖來自漢堡大學的Hartmann等[4]製作的全球岩性矢量數據,這份岩性數據在研究區範圍內的岩性圖由新疆地質礦產局採集自1992年,數據格式是shapefile文件,比例尺1∶150萬,在冰川區內無數據。依據此概略岩性圖,研究區內以碳酸鹽沉積岩(Carbonate Sedimentary Rocks,SC)和鬆散沉積物(Unconsolidated Sediments,SU)為主,此外還有混合沉積岩(Mixed Sedimentary Rocks,SM)和酸性火成岩(Acid Plutonic Rocks,PA)。以1∶150萬的區域岩性圖為地面真值概覽底圖,基於地質學的理論知識,利用ASTER TIR和Landsat OLI傳感器的數據提取岩性指標,來對區域岩性圖的岩性類型做出更細緻的解釋,最終製備一份30 m空間分辨率的岩性地質填圖。

溜石坡調查數據是重要的地面真值數據(Ground Truth),中科院成都山地災害研究所周公旦老師提供了2017年融雪期的地質災害調查數據。該數據集包含多處溜石坡災害點的經緯度位置信息。基於正射影像圖的室內目視解譯對這份調查數據進行核實,並用來進行溜石坡災害易發性的機器學習建模。圖1包含了災害調查點分布的概覽信息。利用GF-1號PMS數據融合鑲嵌的中巴公路喀什至伊斯蘭堡段正射影像圖用作調查底圖和輔助地質調查的資料。

文中採用的數據見表1。


表1 數據來源列表

序號 名稱 數據採集時間 用途 類型
1 Landsat 8 OLI影像 2016-07-20 遙感岩性填圖 柵格
2 ASTER TIR影像 近6年融雪期合成 遙感岩性填圖 柵格
3 GF-1 PMS影像 2013-2016融雪期合成 溜石坡樣本增生 柵格
4 ASTER GDEM產品 時間未知 溜石坡孕災因子提取 柵格
5 地面岩性地圖 1992年 遙感岩性填圖 矢量
6 溜石坡調查點 2017年融雪期 溜石坡評價的訓練樣本 矢量
7 土壤類型數據 2008年 溜石坡孕災因子 柵格


1.2 數據處理步驟[編輯]

1.2.1 孕災因子遴選與特徵矩陣構建[編輯]

基於精度可靠的DEM提取的各種地形因子是地質災害易發性分析的重要的孕災因子。本文基於Conrad等[5]開源的SAGA GIS系統提取多種孕災因子用於冰緣災害的評價研究中,這些因子可以分為基本的地形因子、水文學因子、形態測量學因子(Morphometry)以及岩土水力學因子4類。這些地形因子與岩性類型、土壤類型一道作為溜石坡易發性評價的孕災因子,全面刻畫了溜石坡災害的孕災環境,但是難免會有冗餘。借鑑數據倉庫的理念[6],整合(integration)特徵來消除冗餘(redundancies)和不一致(inconsistencies)。離散特徵的冗餘檢測採用皮爾遜\({\chi }^{2}\)統計量\(q\)的假設檢驗,其計算如式(1)[7]。皮爾遜\({\chi }^{2}\)檢驗的原假設\({H}_{0}\)是兩個變量相互獨立,當且僅當\({q<{\chi }^{2}}_{1-p}\left(df-1\right)\)時接受\({H}_{0}\)。其中,\(p\)是顯著性水平,自由度\(df=\left(c-1\right)×\left(r-1\right)\)[7] 。在\({\chi }^{2}\)檢驗中,針對離散變量𝑨和𝐁,假設𝑨有𝒄個唯一值為𝑎1,𝑎2,…,𝑎𝑐,𝐁有𝒓個唯一值為𝑏1,𝑏2,…,𝑏𝑟。𝑨的𝒄個值為列,𝐁的𝒓個值為行,構成列聯表(contingency table)。在這個表中,每個𝑎值會和對應的𝑏值相遇構成聯合事件(𝑨i , 𝐁j ),占據矩陣的一個位置。相關統計量稱作皮爾遜𝝌𝟐統計。式中,𝒐𝒊𝒋是聯合事件(𝑨i , 𝐁j )的觀測頻率,𝒆𝒊𝒋是該聯合事件的期望頻率:

\(q=\sum_{i=0}^{c-1}\sum_{j=0}^{r-1}\frac{\left ( o_{ij}-e_{ij} \right )^{2}}{e_{ij}}\) (1)

對於任意的連續數值變量\(A\)和\(B\),使用經典的皮爾遜相關性檢驗進行判別,相關統計量為\({r}_{A,B}\)或者其平方形式\({r}^{2}\),在統計機器學習模型中要避免\({r}_{A,B}\)大的連續變量對同時輸入到模型中。圖3是經過以上冗餘檢測後得到的孕災因子集合。


圖片

圖3 冗餘檢測後的孕災因子集合


統計機器學習模型往往需要輸入樣本服從一定的分布,至少要服從一定的輸入規範。本文選擇的半監督學習方法會涉及到歐式距離的計算,因此需要對離散特徵編碼和對連續特徵標準化(Standardization)處理。

特徵矩陣中包含4個離散變量和9個連續變量。離散變量中包括岩性類屬、地表分類[8]、土壤類型3個類別變量和摩擦敏感失穩指數1個二值變量。利用OneHot編碼器來對4個離散變量編碼,經過OneHot編碼後4個離散變量轉換為了31維的二進制變量,這個31維的二進制特徵和連續特徵組成包含40個特徵的特徵矩陣。

新的特徵矩陣中有比率標度也有區間標度,有的單位是弧度也有的無單位,而且取值範圍參差不齊,在建模之前要進行標準化,這裡選擇最小最大標準化方法來處理。對於任意特徵X,最小最大標準化方法首先利用樣本的最大值和最小值來將其約束為\(\stackrel{˙}{X}\),之後繼續將\(\stackrel{˙}{X}\)標準化到用戶定義的區間[a, b]為\(\stackrel{˙}{\stackrel{¨}{X}}\)。式中\(min\)和\(max\)分別為求序列的最小值和最大值的函數。

\(\stackrel{˙}{X}=\left(X-min\left(X\right)\right)/\left(max\left(X\right)-min\left(X\right)\right)\) (2)

\(\stackrel{¨}{X}=\stackrel{˙}{X}×\left(b-a\right)+a\) (3)

特徵遴選、特徵整合、特徵編碼、特徵轉換是特徵工程的完整流程。特徵編碼和轉換的完整處理流程見圖4。


圖片

圖4 特徵編碼和轉換的流程


1.2.2 算法選擇和溜石坡調查數據擴充[編輯]

野外地質調查很難採集足量的樣本來建立監督學習模型,小樣本驅動監督學習模型是一個挑戰,本文嘗試採用半監督(Semi-Supervised)學習的方法來解決這個問題。

半監督學習基於少量的帶標籤訓練樣本便可得到不錯的預測效果,其原理是標籤傳播,即對輸入數據集中所有樣本構建一個相似性圖來給無標籤數據賦予類別標籤。相比Zhu等[9]提出的標籤傳播方法,Zhou等[10]的方法最小化一個包含正則屬性的損失函數,因此該方法更具魯棒性。本文選擇Zhou的方法,算法實現基於Scikit-Learn[11],可供選擇的核方法有徑向基函數(RBF)和K近鄰(KNN),這兩種核函數都是在歐式空間計算距離,徑向基函數能夠將特徵映射到高維空間,但是時間複雜度和空間複雜度都很高,K近鄰具有更高的計算效率和更低的空間複雜度。

溜石坡災害調查點數據於2017年夏天採集自中巴公路蓋孜河谷兩側,數據格式是矢量點文件。將災害調查點數據疊加到GF-1號正射影像中可以清楚地看到溜石坡的形狀和分布特點,發育在公路兩側的溜石坡基本呈扇形延伸到河谷以及公路,有的甚至可以蔓延到對岸。圖5a是昆蓋山東坡的一個溜石坡點,圖5b是蓋孜河谷公格爾山西坡上的一個溜石坡災害點,公路等基礎設施以及一些村落直接建在溜石坡上,潛在危害巨大。


圖片

圖5 溜石坡調查數據疊加GF-1號影像


本研究採取基于格網點的機器學習模型構建策略,也就是說每個格網點是一個樣本。選用的標籤傳播式半監督學習算法對樣本量的要求不高,只要將未知標籤和已知標籤的比例控制在60∶1左右便可,即有類別標籤的格網點占比為1/60左右。通過溜石坡調查點和GF-1號正射影像圖疊加可以明顯地看到溜石坡的輪廓(圖5),基於溜石坡調查資料勾繪得到的矢量圖形作為模型訓練的標籤數據,特徵矩陣作為模型訓練的初始特徵集合進行模型訓練。

1.2.3 機器學習模型訓練與參數選擇[編輯]

為了權衡預測精度和算法的複雜度(包括時間複雜度和空間複雜度),K近鄰被選用為標籤傳播模型的核函數,K進鄰是典型的基於距離的機器學習算法,又被稱作懶惰學習。K近鄰對每一個無標籤數據尋找其在訓練集中K個最近的鄰居,將鄰居中出現次數最多的類別標籤賦給無標籤數據,迭代這個過程直到所有樣本都賦予標籤。K近鄰的計算流程如圖6。


圖片

圖6 基於KNN的半監督學習計算過程


顯然,核函數K近鄰的一個重要的超參數是用於鄰域距離計算的鄰域點個數K,K值直接影響模型的0精度,因此得到最優的K值是至關重要的參數選擇問題。調整K值來查看驗證集上的精度。當K=18時,驗證集中正樣本、負樣本以及全局精度達到最大。另一個重要的參數是迭代次數,不過迭代次數達到30就已經收斂且是穩定的,所以調整迭代次數到收斂即可。

1.2.4 溜石坡易發性空間區域預測[編輯]

利用建立的模型遍歷公路兩側2公里的範圍得到中巴公路在蓋孜河谷沿線的潛在溜石坡易發區。雖然建模特徵中沒有包含任何光學遙感數據的光譜特徵和紋理特徵,但是模型在蓋孜河谷公路兩側2公里的緩衝區內的預測結果與GF-1號正射影像圖中目視解譯出來的災害區高度匹配,即使目視看來有不少疑似錯判的地方。

2 數據樣本描述[編輯]

本數據集提供蓋孜河谷的溜石坡調查GPS點矢量文件和基於調查點模擬得到的中巴公路兩側2公里範圍內的溜石坡易發性分布柵格文件。

圖7中展示了溜石坡調查點的分布情況和溜石坡易發性預測結果的空間分布,紫色區域是預測為溜石坡的區域。


圖片

圖7 溜石坡易發性分布圖


3 數據質量控制和評估[編輯]

3.1 原始數據質量控制[編輯]

參與岩性填圖的Landsat OLI數據採取了嚴格的大氣校正,而ASTER TIR數據的岩性指數反演直接基於星上輻射值(radiance at sensor)進行,這是經過前人研究論證的[12]。DEM數據的質量保證是經過比較不同來源的DEM產品來選擇最接近研究區真實高程的DEM產品。土壤類型數據經過了基於Landsat OLI提取的融雪末冰川範圍的修正來保證該數據在研究區的真實性。對研究區1∶150萬岩性地圖的遙感填圖擴充了岩性的類屬,遙感岩性填圖的準確性通過設置合理的波段指數下限閾值來保證,即使用波段指數提出者所建議的閾值或更高的閾值進行岩性製圖。

3.2 溜石坡預測結果評價[編輯]

實驗證明,少量樣本訓練出來的半監督學習模型還是比較理想的,在驗證集上正樣本精度能夠達到57%以上,負樣本精度在99%以上,總體精度接近80%(圖8)。首先,負樣本的預測精度拉高了模型的總體精度;其次,基於精度的分析可以得到,如果一個格網點不是溜石坡就一定不會被預測為溜石坡,但如果是溜石坡便極有可能被預測為非溜石坡,也就是說即使溜石坡的預測精度不是很高,但是非溜石坡不會錯判為溜石坡。


圖片

圖8 模型精度評價


4 數據使用方法和建議[編輯]

溜石坡調查點數據為矢量SHP格式,屬性表中記錄了經度和緯度信息。溜石坡易發性分布數據保存為柵格TIF格式,二者疊加顯示最佳。ArcGIS、QGIS、ENVI、ERDAS等常用的GIS與遙感軟件可支持該數據的讀取和操作。

致 謝[編輯]

感謝國家特殊環境、特殊功能觀測研究台站共享服務平台給與的項目支持。感謝中科院成都山地所周公旦研究員提供2017年的溜石坡調查資料。

參考文獻[編輯]

  1. ^ 1.0 1.1 王宗盛. 「中巴經濟走廊」(中國段)冰川地質災害調查與評價[D]. 北京: 中國地質大學(北京), 2016.
  2. 楊志全, 朱穎彥, 廖麗萍, 等. 中巴公路沿線溜石坡[J]. 地質科技情報, 2013, 32(6): 175-180.
  3. FISCHER G, VELTHUIZEN H V, SHAH M, et al. Global AgroEcological Assessment for Agriculture[C]// The Century, Rome, Food and Agriculture Organization of the United Nations, 2010.
  4. HARTMANN J, MOOSDORF N. The new global lithological map database GLiM: A representation of rock properties at the Earth surface[J]. Geochemistry Geophysics Geosystems, 2012, 13(12): 1-37.
  5. CONRAD O, BECHTEL B, BOCK M, et al. System for Automated Geoscientific Analyses (SAGA) v. 2.1.4[J]. Geoscientific Model Development Discussions, 2015, 8(2): 2271-2312.
  6. HAN J, KAMBER M. Data Mining Concept and Techniques[M]. Amsterdam: Elsevier, 2011.
  7. ^ 7.0 7.1 PAPOULIS A, PILLAI S U. Probability, Random Variables, and Stochastic Processes, Fourth Edition[M]. NYC: McGraw-Hill, 2002.
  8. IWAHASHI J, PIKE R J. Automated classifications of topography from DEMs by an unsupervised nested-means algorithm and a three-part geometric signature[J]. Geomorphology, 2007, 86(3-4):0-440.
  9. ZHU X, Ghahramaniy Z B. Learning from labeled an unlabeled data with label propagation[R]. School Comput. Sci., Carnegie Mellon Univ., Pittsburgh, PA, Tech. Rep. CMU-CALD-02-107, 2002. 3.
  10. ZHOU D, BOUSQUET O, LAL T N, et al. Learning with local and global consistency[C]// International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2003: 321-328.
  11. PEDREGOSA F, GRAMFORT A, MICHEL V, et al. Scikit-learn: Machine Learning in Python[J]. Journal of Machine Learning Research, 2012, 12(10): 2825-2830.
  12. YARBROUGH L D, EASSON G, KUSZMAUL J S. Using at-sensor radiance and reflectance tasseled cap transforms applied to change detection for the ASTER sensor[C]// International Workshop on the Analysis of Multi-temporal Remote Sensing Images. IEEE, 2005.

數據引用格式[編輯]

田德宇, 張耀南, 韓立欽, 等. 蓋孜河谷中巴公路兩側溜石坡易發性分布數據集[DB/OL]. 國家特殊環境、特殊功能觀測研究台站共享平台, 2018. (2018-06-13). DOI: 10.12072/casnw.062.2019.db.


本作品在「知識共享-署名 4.0 國際」協議下發表。

Public domainPublic domainfalsefalse