开放科学背景下的科学数据开放共享:国家青藏高原科学数据中心的实践
開放科學背景下的科學數據開放共享:國家青藏高原科學數據中心的實踐
潘小多1,2,?李新1,2,?冉有華3,?郭學軍2
1?中國科學院青藏高原研究所國家青藏高原科學數據中心,北京 100101
2?中國科學院青藏高原研究所青藏高原地球系統與資源環境國家重點實驗室,北京 100101
3?中國科學院西北生態環境資源研究院,甘肅 蘭州 730000
?摘要:介紹了開放科學和開放數據實踐活動的概念、內涵和對科學研究的重要性;詳細闡述了現階段開放數據面臨的挑戰,如數據引用、數據計量、數據互操作和大數據分析等;并以國家青藏高原科學數據中心為例,闡述其在數據引用、數據互操作和大數據分析等開放數據方面的舉措和數據共享成效;最后展望了數據中心對開放數據的促進作用。
關鍵詞:開放數據 ; 數據引用 ; 數據計量 ; 數據互操作 ; 大數據分析 ; 地球科學
論文引用格式:
潘小多, 李新, 冉有華, 等. 開放科學背景下的科學數據開放共享:國家青藏高原科學數據中心的實踐[J]. 大數據, 2022, 8(1): 113-120.
PAN X D, LI X, RAN Y H, et al. Open access of scientific data in the context of open science: the practice of the National Tibetan Plateau Data Center[J]. Big Data Research, 2022, 8(1): 113-120.
0 引言
開放科學指科學家通過互聯網免費分享他們的研究數據、方法、代碼、實驗室筆記和其他研究過程,以便能夠被重復使用和復現,實現協作研究的科學實踐,其旨在消除科學研究過程中的訪問障礙,使得研究者可共享任何類型的研究成果、資源、方法或工具,促進科學的自由傳播,加強科學合作和信息共享,推動科學進程。開放科學運動最早可以追溯到17世紀的啟蒙運動時期,但是“開放科學”這個術語直到1998年才被史蒂夫·曼提出,當時他注冊了域名openscience.com和openscience.org,這標志著開放科學開始步入人們的視野。開放科學代表了一種全新的科學研究范式,它依賴于建立在數字化技術和新型協作工具上的協作型研究和新的知識傳播方式。開放科學的理念反映了50年來科學研究的范式轉變:以前的標準做法是將研究成果發表在科學出版物上,而現在的趨勢是在研究過程的早期階段就共享和使用所有可用的知識。
開放科學的實踐得到越來越多人的認可和采用,比如開放獲取的學術論文、共享數據和開放代碼等。McKiernan E C等人通過回顧大量文獻發現,開放獲取學術論文有利于增加科研工作者的學術論文引用、媒體關注、潛在合作者、就業機會和資助機會等。雖然開放數據對于用戶和促進科學發展等方面的益處不言而喻,但是科學數據沒有像學術論文那樣廣泛采用開放獲取的共享方式,一個重要的原因是研究人員不確定分享科學數據會對他們的職業生涯造成什么影響。開放數據也是歐盟開放科學戰略八大目標的首要目標。為抗擊新型冠狀病毒肺炎(COVID-19)疫情,全球科學出版商取消了訪問COVID-19相關研究的限制,研究人員充分認識到開放獲取的數據共享對于科學研究的意義,進一步促成了開放科學實踐活動。
科學數據是國家科技創新和發展的基礎性戰略資源,隨著大數據時代的到來,科學數據日益呈現出4V特征:體量(volume)、類型(variety)、速度(velocity)和最重要的價值(value),并具有巨大的潛在價值和可開發價值。開放科學重視數據的開放,它不僅倡導論文的開放獲取,而且認為論文中的數據開放也是不可或缺的。開放科學數據是開放科學的重要物質基礎,強調數據的活用和重用,并把研究數據與論文或論著置于同等甚至更為重要的位置,隨著開放數據的持續深入推進,科研期刊要求著作者提交數據可獲取聲明已成為常態。
科學數據的開放共享已經從全面開放(full and open)原則過渡到目前普遍遵循的FAIR(可發現性(findability)、可獲取性(accessibility)、可互操作性(interoperability)、可重用性(reusability))原則,并進一步提出了CARE(集體收益(collective benefit)、質量保證(authority to control)、責任(responsibility)、倫理(ethics))原則。FAIR原則強調技術進步,而CARE原則更側重政策變革,兩者相輔相成,體現了大數據時代科學數據共享技術和政策雙輪驅動的特征。在我國,為了完善科技資源共享服務體系,推動科技資源向社會開放共享,國務院辦公廳在2018年印發了《科學數據管理辦法》,明確了數據開放是受政府預算資金資助的研究項目的基本原則。2019年6月,國家青藏高原科學數據中心等20個國家科學數據中心成立,開啟了我國科學數據開放共享的新階段。目前,中國在科學數據開放共享方面取得了巨大進展,在地學數據共享方面,國家自然科學基金委員會地學領域的重大研究計劃、中國科學院的地球大數據科學工程都已成為地學數據開放共享的標桿。
上述科學數據開放共享的原則或政策對于促進開放數據是非常有價值的,但它們并沒有消除研究人員對于“開放數據可能會給自己的科研工作帶來風險”的顧慮,一定程度上影響了科研工作者自下而上自發地開放科學數據的意愿。要實現范式轉變,仍需要政府、研究人員和數據中心的積極努力。我國還要在政策、管理、技術和國際化等方面采取更具體的行動,以更大的力度和更多的措施促進科學家共享數據的意愿,提高我國科學數據中心的影響力,推動更加廣泛的數據共享。科學數據中心作為數據存儲、管理和運營的核心,連接著數據貢獻者和數據用戶,促進數據貢獻者自下而上地開放共享意愿,從而在推動開放數據的實踐方面發揮關鍵作用,但面臨的挑戰不容小覷。
1 開放數據面臨的挑戰
開放數據面臨的首要挑戰是數據引用和數據計量。科學的數據計量和規范化的數據引用能夠解決再現性、可靠性和可重用性方面的問題,能夠定量化開放數據的貢獻,能夠提高公開數據所關聯文獻的引用量,能夠為相關機構提供考核依據,從而激發數據貢獻者開放共享數據的意愿,進一步促進開放科學和開放數據的實踐。數據作為科學發現的重要支持,應被視為合法的和可引用的研究成果,并像學術文獻一樣被直接引用;如后續有增值數據,原始數據也應被引用,明確原始數據的價值,確保增值數據的可靠性追溯。然而目前大部分數據中心缺乏數據引用信息或者不同數據中心之間缺乏統一的數據引用標準,很難進行追蹤計量;對共享數據的計量大部分等同于其關聯文章被引用的情況,這不利于對那些沒有關聯文章的共享數據的評價。因此,數據中心作為數據的重要載體和管理方,應盡量遵循由全球大量數據相關機構共同制定的數據引用原則,開發相應的工具,為共享數據提供數據引用信息(包含數據貢獻者、數據集名稱、數據制備年份、數據的數字唯一標識符和數據分發機構等),并能根據不同引用方式靈活提供數據引用信息。
同時,傳統的期刊影響因子及論文引用量并不能充分反映科研成果的科學、社會、政治和經濟效應,開放科學為開發新的科研成果計量方式創造了機遇,有助于激勵科研人員自發共享除學術論文外的科研成果,比如科學數據和軟件代碼等。數據中心需要抓住機遇,加強開放數據的科學計量,開發新一代開放科學計量工具,綜合反映科學數據的科研、社會、政治和經濟效益。實現這些基本的計量只是第一步,如何實現更科學的數據計量,并合理設計相應的激勵機制,還需要更多的研究與探索。
第二個挑戰是數據的互操作性。在FAIR原則中,互操作性是體現數據信息增值最大化的核心屬性,相較于其他屬性,該屬性最能激發數據貢獻者的數據共享意愿。從宏觀上來講,互操作性是要建立一個被廣泛認可的關于數據交換、數據安全和信息傳遞的規范、標準、方法、過程或實踐等準則,從技術、結構、語義和組織等不同層次實現數據互操作的標準化。從數據實體來講,互操作是能夠實現多源異構數據的集成、分析和處理,進而實現大數據分析和決策的技術和方法,具體而言,即保證:①數據/元數據使用正式、可訪問、共享和廣泛適用的語言來表示知識;②數據/元數據使用遵循公平原則的詞匯表;③數據/元數據包括對其他(元)數據的限定引用。
第三個挑戰是數據共享模式從數據倉庫到大數據平臺的轉換。實現數據共享模式從數據倉庫到大數據平臺的轉換是從數據角度支持開放科學的關鍵,應對這一挑戰的核心是建設集數據存儲、管理、建模、分析、可視化、決策支持于一體的大數據平臺,并將其作為開放科學時代的信息基礎設施,實現從地球系統的觀測、數據綜匯、開放獲取、信息提取、知識挖掘到智慧決策的技術貫通。而模型驅動與數據驅動方法的深度結合可能是最大的技術瓶頸,也是最有前景的研究方向。此外,兼容傳統數據共享模式,提供更加強大的數據搜索引擎、智能數據處理工具,更有效地為用戶和機器提供更加友好、智能的服務,也是實現上述技術升級轉換的橋梁。
2 開放數據實踐
為了應對數據開放共享存在的問題和面臨的挑戰,國家青藏高原科學數據中心初步開展了一些嘗試,包括采用國際標準提供數據引用方式和數據關聯文獻引用方式,支持數據出版,開發在線大數據分析、模型應用等功能,促進第三極地區科學數據開放共享。
具體來講,國家青藏高原科學數據中心開發了中英文雙語數據管理與共享平臺,大部分數據采用開放獲取方式(其中大部分開放數據實現免登錄下載),目的是降低數據下載門檻。但是需要有知識產權保護作為開放獲取的前提,國家青藏高原科學數據中心采用以下方式來保障數據作者的知識產權(圖1):①為每個自有產權的數據賦予唯一的數字對象標識符(digital object identifier,DOI)和中國科技資源(China science and technology resource,CSTR)標識,體現數據的跟蹤價值、引用價值、集成價值和互聯價值;②采用知識共享(creative commons, CC)4.0協議,保留作者版權,同時授權他人在協議限定范圍內的轉載、使用和二次演繹等行為;③建議和鼓勵用戶進行數據引用和數據關聯文獻引用,并在數據詳情頁提供數據引用和數據關聯文獻引用信息;④秉承數據開放獲取的原則,同時兼顧數據作者對特殊數據保護的訴求,可設置不超過兩年的數據保護期,或根據數據作者對數據共享需要附加額外條件的要求,設置數據申請審批流程。
圖1???數據知識產權保護措施
國家青藏高原科學數據中心積極申請成為國際重要期刊和組織認證的數據倉儲,不斷完善數據中心的功能,提升數據中心的共享和服務能力。2020年7月國家青藏高原科學數據中心成為國內首個通過Nature旗下Scientific Data認證的數據倉儲中心。2020年7月國家青藏高原科學數據中心成為美國地球物理學會(American Geophysical Union,AGU)推薦的數據倉儲,并成功注冊綜合性的全球研究數據存儲庫系統(re3data.org和FAIRsharing)和項目(Enabling FAIR Data),促進了數據中心、國際地球科學領域其他數據中心和研究人員的合作與交流。
在數據互操作方面,國家青藏高原科學數據中心盡量采用地學數據領域廣泛認可的標準和規范來減少互操作性障礙,如數據交換服務協議選用開放源代碼的網絡數據訪問協議 (open-source project for a network data access protocol, OPeNDAP)和開放地理空間信息聯盟(open geospatial consortium,OGC)標準。關于數據層面的互操作性,雖然沒有要求數據作者使用特定的格式,但建議數據作者盡可能按照氣候和預測(climate and forecast)公約,采納網絡通用數據格式(network common data format,NetCDF)對數據進行編碼。國家青藏高原科學數據中心按照谷歌數據搜索引擎的要求,在數據集描述頁面添加符合Schema.org標準的元數據信息,使得數據中心的數據能夠在谷歌數據搜索引擎中被查詢到。
在大數據分析方面,國家青藏高原科學數據中心通過增量集成和自主研發,構建大數據質量控制、自動建模與分析、數據挖掘及交互式可視化的方法庫,形成具有高可靠性、高可擴展性、高效性和高容錯性的工具箱,實現青藏高原及周邊多源異構、多粒度、多時相、長時間序列大數據的協同分析方法的集成和共享,以及高效和在線的大數據分析處理,并通過青藏高原關鍵地表過程的大數據分析應用示范,打通數據深度挖掘的整體技術鏈路。國家青藏高原科學數據中心目前包含機器學習、數據同化、參數估計、時間序列分析、高級地統計、數據后處理和因果分析七大類大數據分析方法庫,通過方法庫的元信息對方法進行管理和智能搜索/推薦,建立代碼共享機制,并在GitHub上托管。
目前,國家青藏高原科學數據中心集成了青藏高原及周邊科學數據集4 350個(數據量接近172 TB),其中開放獲取的科學數據集有2 797個,占比超過64%。自2021年3月以來,國家青藏高原科學數據中心對開放獲取的數據實行免登錄設置,平均每月數據下載量達1.6萬多次,較之前增長了兩倍多,大大提升了數據共享服務量。境外用戶的數據下載量占比超過35%,隨著國家青藏高原科學數據中心國際化建設的進一步推進,國際數據貢獻者和數據用戶有望進一步增多,從而進一步提升數據中心的國際影響力。截至2021年9月,已有2 800多篇論文使用和引用了國家青藏高原科學數據中心的數據集,用于冰凍圈變化、亞洲水塔變化、生態系統脆弱性評估、重大工程風險評估和遙感反演評估等研究,為青藏高原地球系統科學研究提供了數據支撐,有效地提高了第三極地區科學數據的共享水平與利用效率,推動了青藏高原及周邊地區地球系統的科學研究和前沿創新。
3 結束語
隨著以地球觀測系統和眾源地理信息為典型代表的各類科學數據以指數級速度的持續增長,地球系統科學研究進入了“大數據”時代,科學研究的第四范式——數據密集型科學發現不約而至,開放科學和開放數據是科學發現新范式的一種適應和必然過程,每一位科研工作者都將是開放科學和開放數據的貢獻者和受益者。數據中心是開放數據系統中連接決策者、數據貢獻者、數據和數據用戶的中介機構,可從政策、管理、技術和國際化等方面加強開放數據措施,并讓數據貢獻者和數據用戶受益,形成科學和社會收益的強化反饋。
作者簡介
潘小多(1978-),女,博士,中國科學院青藏高原研究所研究員、博士生導師,主要從事區域氣候變化、數據同化、數據集成和大數據分析等研究,在BulletinoftheAmericanMeteorologicalSociety、JournalofGeophysicalResearch和《高原氣象》等期刊上發表學術論文60多篇。自2018年以來,在國家青藏高原科學數據中心負責科學數據集成與服務方面的工作,已申請3項國家發明專利和1項計算機軟件著作權。
李新(1969-),男,博士,中國科學院青藏高原研究所研究員、博士生導師,國家杰出青年科學基金獲得者。發展了我國大尺度陸面數據同化系統及高分辨率的流域尺度陸面水文數據同化系統,組織實施了“黑河綜合遙感聯合試驗”和“黑河生態水文遙感試驗”。獲甘肅省自然科學獎一等獎及中國科學院杰出科技成就獎。已發表學術論文400多篇(其中SCI收錄260多篇),論文總引用17000多次。
冉有華(1980-),男,博士,中國科學院西北生態環境資源研究院副研究員,主要從事冰凍圈生態水文遙感與模型、遙感產品真實性檢驗等相關研究工作,已發表學術論文70多篇(其中SCI收錄30多篇),論文總引用3000多次。
郭學軍(1977-),男,博士,中國科學院青藏高原研究所研究員級高級工程師,主要從事科研信息化和科學大數據等方面的工作,主持中國科學院戰略性先導科技專項(A類)“泛第三極環境變化與綠色絲綢之路建設”子課題、中國科學院信息化專項等多個項目。
聯系我們:
Tel:010-81055448
? ? ? ?010-81055490
? ? ? ?010-81055534
E-mail:bdr@bjxintong.com.cn?
http://www.infocomm-journal.com/bdr
http://www.j-bigdataresearch.com.cn/
轉載、合作:010-81055307
大數據期刊
《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的期刊,已成功入選中國科技核心期刊、中國計算機學會會刊、中國計算機學會推薦中文科技期刊,以及信息通信領域高質量科技期刊分級目錄、計算領域高質量科技期刊分級目錄,并多次被評為國家哲學社會科學文獻中心學術期刊數據庫“綜合性人文社會科學”學科最受歡迎期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
總結
以上是生活随笔為你收集整理的开放科学背景下的科学数据开放共享:国家青藏高原科学数据中心的实践的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一些概念整理(不一定完全正确)
- 下一篇: 职业规划+学习进程