問渠哪得清如許,為有源頭活水來——《中國科學數據》發刊詞
問渠哪得清如許,為有源頭活水來——《中國科學數據》發刊詞 作者:郭華東 2016年6月1日 |
郭華東. 問渠哪得清如許, 為有源頭活水來——《中國科學數據》發刊詞[J/OL].中國科學數據, 2016, 1(1). DOI:10.11922/csdata.0.2016.0014. II區出版時間:2016年6月1日 |
人類正在進入大數據時代。作為科學生產力認識的革命性創新,大數據為科學研究帶來了新的方法論;作為科學研究的新範式,大數據正在催生人們用全新的思維追求科學發現。在全球大數據浪潮湧動、我國將大數據列為國家戰略的時代背景下,《中國科學數據》問世了。
1 數據是科學發現的基石和源泉
[編輯]縱觀科學的發展,無論是四百年前開普勒行星運動定律的提出,還是當今新粒子的發現、新醫藥的研製、數字地球的發展,等等,無不依賴於對實驗、觀測、調查、測量、模擬等所產生的原始數據及有關派生數據的分析和利用。正因為如此,信息技術一直以來的發展都以提高人類採集、傳輸、存儲、管理與分析數據和信息的能力作為一項核心目標。在本世紀,上述能力的提高所導致的數據爆炸越來越顯著,科學研究也日益表現出數據密集型和以數據為中心的特徵,推動科學研究進入大數據時代。大數據作為知識經濟時代的戰略高地,是國家和全球的新型戰略資源。圍繞大數據引起的競爭不僅將決定國際信息產業格局,還將深刻影響經濟發展、國家安全、科技進步和綜合競爭力[1]。
數據成為檢驗科學研究價值的試金石。一方面,許多學科領域的科學發現以數據為基礎,以新的數據發現為目標,輔以挖掘工具與分析手段,將數據與重要發現融合。另一方面,數據成為重複科學試驗、確保研究成果真實可靠的檢驗基礎。這一全新階段在生命科學、高能物理、數字地球、全球變化、深空探測等領域的積極實踐,無不彰顯大數據與大科學緊密相連、密不可分的時代特色。科學數據走出深閨,成為科學研究的亮點和法寶,使推動產生新的科學發現成為可能。科學大數據作為大數據的分支體系,已成為繼實驗、理論和計算模式之後的數據密集型科學範式的典型代表,正在從模型驅動向數據驅動模式進行轉化,帶來了科研方法論的創新[2]。科學大數據已經並將繼續在上述大科學領域中發揮重要作用,未來必將在大科學領域為科學發現做出更加重大的貢獻[3]。
2 數據開放共享是科技進步的動力和社會需求
[編輯]近現代科學的快速發展很大程度上得益於科學的開放式探索。自十七世紀第一批科學期刊創建以來逐漸確立形成的研究結果公開發表與開放交流機制,使得科學具備強大的自我修正與承繼向前能力。然而,受限於以前的媒介及傳播技術,以期刊論文為典型代表的發表研究成果的文獻中,作為研究結果證據的數據不得不被精簡和極度省略。隨着近幾十年來信息技術的飛速發展,數據和信息存儲、傳播方面原先所面臨的容量、時間和空間藩籬已被打破,存儲和傳播的成本一再下降,翔實的科學證據的公開在如今已具備技術條件。同時,它們的公開也變得更加必要和迫切。除了提高研究結果的可檢驗性和公信力以保障科學的自我修正能力之外,科學數據的開放共享還為更多的科學研究提供了豐富的基礎材料,擴展科學研究的範圍,擴張科學研究的視角,產生更多的科學知識,以及使得它們可以為科研以外的生產活動開發利用,產生難以預料的社會和經濟價值。為此,科學數據開放共享不僅為學術界自身呼籲,而且為國家政府、資助機構、出版機構、公眾等利益相關者關注[4][5]。
3 數據開放共享正在成為科學政策的重要組成
[編輯]目前,已有不少國際性組織(如OECD[6]、ICSU[7]、GEO[8]等)和國家發布了關於科學數據開放共享的政策性文件。例如,美國政府先後頒布了A-130通告[9]和《開放數據政策——將信息作為資產管理》文件[10],美國國家科學基金會[11]、國立衛生研究院[12]等科研資助機構也分別發布了相應的科學數據開放共享政策。在我國,科學數據開放共享也已上升到國家戰略高度。國務院2015年8月發布的《促進大數據發展的行動綱要》[13]中,明確提出了「積極推動由國家公共財政支持的公益性科研活動獲取和產生的科學數據逐步開放共享」的重要目標。很多科研教育機構也制定了本機構的數據管理和共享政策以適應上述國家層面的有關政策要求。例如,紐約大學的研究數據保留和獲取政策[14],劍橋大學的研究數據管理政策框架[15]等。出版界也日益認識到科學數據開放共享的必要性,一些期刊出版團體(如Science[16]、Nature[17]、BMC[18]、PLOS[19]等)已經在行動,革新了期刊出版的有關政策。以上各層面的政策都在促使數據開放共享成為未來科學研究的一項基本公約[5][20]。
科學數據開放共享在具體實踐層面,目前呈現出多模式探索之貌:既有大型國際合作項目或組織主導建立的開放數據庫或系統(如世界數據系統WDS﹝www.icsu-wds.org﹞、全球綜合地球觀測系統GEOSS﹝www.geoportal.org﹞、全球蛋白質數據庫wwPDB﹝www.wwpdb.org﹞等),也有政府投資建立的國家級科學數據中心或系統(如美國國家航空航天局為其資助產生的科學數據建立的數據中心群﹝data.nasa.gov﹞[21]、英國自然環境研究理事會支持建立的數據中心[22]、我國國家科技基礎條件平台中的各科學數據共享平台/中心/網﹝www.escience.gov.cn﹞等),還有科研教育機構建立的存儲和共享本機構科學數據的存儲庫(如牛津大學的ORA-Data﹝researchdata.ox.ac.uk﹞、哈佛大學的Dataverse﹝dataverse.harvard.edu﹞等),出版界所進行的要求作者提交和公開論文支撐數據的實踐,以及一些通用型數據存儲庫或數據存儲與共享平台(如Dryad﹝www.datadryad.org﹞、Figshare﹝figshare.com﹞、ScienceDB﹝www.sciencedb.cn﹞)等。儘管科學數據開放共享在政策和實踐層面都有令人欣喜的進展,但科學數據開放共享的成效總體來說還遠未達到預期。
4 數據出版是推動與加速數據開放共享的有效戰略
[編輯]現代科學的職業化進程加速了科學的進步,其間確立起來的以文獻為中心的科學家科研貢獻和學術聲望評價機制起到了重要作用。如今,雖然科學數據開放共享廣為科研人員及各種利益相關者所認同,但科學家科研貢獻和學術聲望評價機制基本還未發生改變,這被認為是阻礙科學數據開放共享實踐的一個根本問題[23]。此外,缺乏能夠應用於大數據研究實踐成果和學術著作快速出版的開放工具和平台,也是一重要挑戰。目前亟需可用於不同學科、不同制度下的數據出版和數據共享的集成化平台,以及多數據集成化出版[24]。為此,科學數據開放共享領域的研究者們提出了數據出版的概念,其核心內容是使數據達到可引用和永久可訪問的狀態,為科研評價體系儘快將數據納入其中,提供便利,因而數據出版被認為有望從機制上改變目前數據開放共享所面臨的根本問題[25]。目前,數據出版的基本流程參考了學術期刊的出版流程[26]。從出版形式來看,目前主要有三種數據出版模式:數據附屬於出版物的出版、出版物附屬於數據的出版、以及獨立的不依賴於出版物的數據出版[27]。其中,出版物附屬於數據的出版是最新出現的一種數據出版模式,它與現有的科研評價體系相適應,試圖通過當前的利益機制協調,推動科學數據開放共享。
科學數據出版提供了一種新的視角。它藉助出版媒介發布數據,並引導讀者便捷地發現、獲取、理解、再分析利用與引用數據。實際上,一些期刊出版團體已經在行動——如革新了期刊出版的有關政策,提出了作者應公開論文支撐數據的要求等。而獨立的數據出版是其中較新的一類探索,其科學地沿用了科研共同體的傳統知識成果發布體系,試圖通過有效的利益機制協調,使數據更具發現性、引用性、解釋性和重用性。
中國科學院計算機網絡信息中心和依託在該中心的國科聯國際科技數據委員會中國委員會及秘書處長期以來關注科學數據開放共享問題,他們注意到了這種最新的數據出版模式,創立了我國首個專門的數據期刊《中國科學數據》。本刊希望藉助於以數據論文帶動數據出版的這種實踐,使數據達到可發現、可解釋、可引用、可重用、可評價及永久可訪問等,切實推動我國科學數據開放共享的進程,亦為國際數據科學和開放發展作出貢獻。可喜的是,本刊同時也是我國網絡連續型出版物的首批試點刊物之一,願能在業界起到拋磚引玉之作用。 數據出版是科研共同體的防腐劑,通過出版數據,我們將清楚地看到公共經費支持項目所捕獲「大數據」的真實情況;數據出版是科研共同體的試金石,通過數據論文與數據集的開放獲取,科學數據的價值外延將逐步擴展;數據出版是科學前沿的探測器,通過推廣數據出版,我們也將更進一步感知國內外不同領域科學數據共享的創新進展。「問渠哪得清如許,為有源頭活水來。」為喚醒沉睡的數據,《中國科學數據》希望為科研共同體輸送源頭活水,承載數據,問路未來。
參考文獻
[編輯]- ↑ Guo H D, Wang L Z, Liang D. Big Earth Data from space: a new engine for Earth science[J]. Science Bulletin, 2016, 61(7): 505~513.
- ↑ Guo H D, Wang L Z, Chen F, et al. Scientific big data and Digital Earth[J]. Chinese Science Bulletin, 2014, 59(35): 5066~5073.
- ↑ 郭華東. 大數據、大科學、大發現——大數據與科學發現國際研討會綜述[J]. 中國科學院院刊, 2014, 29(4): 500~506.
- ↑ 英國皇家學會. 科學:開放的事業[M]. 何巍, 王仲成, 李振興, 等, 譯. 上海: 上海交通大學出版社, 2015.
- ^ 5.0 5.1 顧立平. 科學數據開放獲取的政策研究[M]. 北京: 科學技術文獻出版社, 2016.
- ↑ OECD. OECD principles and guidelines for access to research data from public funding[EB/OL]. [2016-05-27]. http://www.oecd.org/science/sci-tech/38500813.pdf.
- ↑ WDS. Data sharing principles[EB/OL]. [2016-05-27]. http://www.icsu-wds.org/services/data-sharing-principles.
- ↑ GEO-VI. Implementation guidelines for the GEOSS data sharing principles[EB/OL]. [2016-05-27]. http://www.earthobservations.org/documents/geo_vi/07_Implementation%20Guidelines%20for%20the%20GEOSS%20Data%20Sharing%20Principles%20Rev2.pdf.
- ↑ The White House. CIRCULAR NO. A-130[EB/OL]. [2016-05-27]. http://www.whitehouse.gov/omb/circulars_a130.
- ↑ Executive Office of the President of the United States. Open data policy-managing information as an asset[EB/OL]. [2016-05-27]. http://www.whitehouse.gov/sites/default/files/omb/memoranda/2013/m-13-13.pdf.
- ↑ The National Science Foundation. Proposal and Award Policies and Procedures Guide[EB/OL]. [2016-05-27]. http://www.nsf.gov/pubs/policydocs/pappguide/nsf11001/aagprint.pdf.
- ↑ National Institutes of Health. NIH data sharing policy and implementation guidance[EB/OL]. [2016-05-27]. http://grants.nih.gov/grants/policy/data_sharing/data_sharing_guidance.htm.
- ↑ 國務院. 促進大數據發展行動綱要[EB/OL]. [2016-05-27]. http://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm.
- ↑ New York University. Policy of on Retention of and Access to Research Data[EB/OL]. [2016-05-27]. http://www.nyu.edu/content/dam/nyu/research/documents/OSP/PolicyonResearchData030110.pdf.
- ↑ University of Cambridge. Research Data Management Policy Framework[EB/OL]. [2016-05-27]. http://www.data.cam.ac.uk/university-policy.
- ↑ American Association for the Advancement of Science. Science: editorial policies[EB/OL]. [2016-05-27]. http://www.sciencemag.org/authors/science-editorial-policies.
- ↑ Springer Nature. Availability of data, material and methods[EB/OL]. [2016-05-27]. http://www.nature.com/authors/policies/availability.html.
- ↑ Springer Nature. Availability of data, material and methods[EB/OL]. [2016-05-27]. http://www.nature.com/authors/policies/availability.html.
- ↑ PLOS. Data Availability[EB/OL]. [2016-05-27]. http://journals.plos.org/plosone/s/data-availability.
- ↑ 侯艷飛, 胡良霖. 數據政策的發展[M]// CODATA中國全國委員會編著. 大數據時代的科研活動. 北京: 科學出版社, 2014: 199~209.
- ↑ NASA Administrator. Data from NASA's Missions, Research, and Activities[EB/OL]. [2016-05-27]. http://www.nasa.gov/open/data.html.
- ↑ NERC. Data Centres[EB/OL]. [2016-05-27]. http://www.nerc.ac.uk/research/sites/data.
- ↑ Fecher B, Friesike S, Hebing M, et al. A Reputation Economy: Results from an Empirical Survey on Academic Data Sharing (February 2015) [EB/OL]. [2016-05-27]. https://arxiv.org/ftp/arxiv/papers/1503/1503.00481.pdf.
- ↑ 郭華東, 陳潤生, 徐志偉, 等. 自然科學與人文科學大數據——第六屆中德前沿探索圓桌會議綜述[J]. 中國科學院院刊, 2016, 31(6): 707~716.
- ↑ 吳立宗, 王亮緒, 南卓銅, 等. 科學數據出版現狀及其體系框架[J]. 遙感技術與應用, 2013, 28(3): 383~390.
- ↑ 張小強, 李欣. 數據出版理論與實踐關鍵問題[J]. 中國科技期刊研究, 2015, 26(8): 813~821.
- ↑ 張曉林, 沈志宏, 劉峰. 科學數據與文獻的互操作[M]// CODATA中國全國委員會編著.大數據時代的科研活動. 北京: 科學出版社, 2014: 149~158.