开放科研:数据科学场景下如何让研究更加开放?
以“自由、開放、合作、共享”為特征,通過科學資源的開放共享與開放獲取,可以提高科學研究的透明度與傳播力,實現(xiàn)更多科研合作、促進更多科學發(fā)現(xiàn)。
數(shù)據驅動的研究不僅需要更完善的學術交流體系,對于共享數(shù)據的需求也會更加強烈。數(shù)據的聚合應用需要研究者將從不同地方獲取到的數(shù)據黏合在一起,形成新的數(shù)據集,為了避免重復勞動并實現(xiàn)研究項目結束后數(shù)據價值的最大程度挖掘,更加廣泛的數(shù)據資源開放是未來發(fā)展的必然趨勢。
云計算時代的數(shù)據科學協(xié)同工具
數(shù)據科學場景下的開放科研
近年來,開放科研的學術理念逐漸受到了國內外研究者的歡迎和推崇,2017 年就有一群學者在《自然》雜志上發(fā)表了倡導開放科學的“宣言”。開放科研通常包括了開放獲取(Open Access, OA)、開放數(shù)據(Open Data, OD)、開源運動(Open Source Movement, OSM)等方面。隨著信息技術的發(fā)展,開放科研更是受到了前所未有的重視,這主要源于數(shù)據科學場景下研究的數(shù)據驅動的特性。
一方面,開放科研的發(fā)展促進了科研成果的共享,尤其是開放數(shù)據,有利于發(fā)揮科學數(shù)據的最大價值。單個的科研項目終會在一個時間點結束,而項目結束后這些數(shù)據的去向是研究者一直關注的問題,科研數(shù)據包括的信息類和數(shù)據項豐富,貫穿于科研的整個周期,通過數(shù)據共享基礎設施開放和傳播將解決當前科研數(shù)據的剩余價值流失問題。
另一方面,開放科研可以讓更多的人共同參與科學研究工作,為數(shù)據驅動的研究提供社會效益的支持。針對類似于大流行病這類相對復雜的問題,開放的科研網絡可以為研究提供大規(guī)模更結構化的開放數(shù)據,減少數(shù)據重復生產的同時支持研究高效推進;另外,將模型公開給更多的人使用并收集相關評述,相當于是在完成大規(guī)模的“同行評議”,有利于模型成果持續(xù)優(yōu)化,提高研究者的科研產出質量。
然而目前仍存在著許多壁壘阻礙了開放科研的實現(xiàn)。
就數(shù)據來說,首先,科研數(shù)據的數(shù)據源載體多、存儲形式多樣、數(shù)據類型廣泛,給科研人員的數(shù)據分析、共享及管理過程造成了比較大的麻煩。在數(shù)據驅動的研究背景下,海量數(shù)據通過多種途徑和方式獲取,并存儲在硬盤、數(shù)據庫或其他存儲介質中,則研究者每次進行數(shù)據分析時都要采用不同的方式調取數(shù)據分別管理。與此同時,數(shù)據共享的方式也比較局限,若是使用網盤共享,數(shù)據上傳、下載耗時耗力;移動硬盤共享倘若后續(xù)發(fā)生數(shù)據修改也很難再同步給相關共享人;云計算雖然可以調用公開數(shù)據,但有些無法提供本地上傳數(shù)據集的接口,也并不方便。
其次,傳統(tǒng)的有限防護機制不一定能保障數(shù)據權益和數(shù)據安全,數(shù)據共享者將面臨風險責任與權利受益的矛盾。一方面,科學數(shù)據本身具有可復制性,在共享中易被竊取,造成數(shù)據貢獻者自身產權受到侵犯;另一方面,數(shù)據的集中化共享很有可能導致數(shù)據使用邊界模糊,增加了數(shù)據誤用、數(shù)據濫用等多重風險?,F(xiàn)有大部分共享平臺可追溯性差,即使數(shù)據泄露,參與用戶也很難追究。
以上這些問題使得對于那些有數(shù)據資源的科研機構來說,即使想要將數(shù)據公開給非內部人員使用,所能實現(xiàn)的方法也非常局限——要么只能允許內部熟識且有一定信譽度的科研人員拷貝數(shù)據,要么就是外部科研人員自行撰寫繁復的申請報告,再實地去到機構的機房中完成數(shù)據分析。因此,如何在開放的同時管控公眾對生產資料獲取、使用和保存的權利,可能是科研人員面臨的一大難點。
歡迎了解數(shù)據科學協(xié)同平臺 ModelWhale ,進入官網?試用選擇個人專業(yè)版或團隊版,免費體驗在線分析建模、離線訓練、版本管理、協(xié)同研究等多種高階功能。
您可也掃碼官網右側二維碼,聯(lián)系產品顧問 MoMo(移動端點此鏈接),了解更多數(shù)據驅動的研究解決方案,MoMo 有問必答~
解決方案
ModelWhale 為科學研究生產資料及多形態(tài)科研成果提供了安全、完善的共享交互和公開機制。
當科研機構基于云端環(huán)境搭建起科研數(shù)據沙箱后,即可實現(xiàn)數(shù)據云端安全公開和調用管理。機構的數(shù)據管理員可以通過平臺多種方式接入存放在本地、數(shù)據庫、對象存儲以及 NAS 空間的各類數(shù)據并進行統(tǒng)一管理,添加數(shù)據描述和標簽,通過權限系統(tǒng)控制其公開的范圍。
管理者可有選擇性地將可開放的數(shù)據公開至機構的門戶頁,實現(xiàn)更大范圍的數(shù)據共享和傳播;尚不合適公開的也可以只給到內部的研究人員,支持其在線分析。另外,管理者可以將各個成員的數(shù)據需求與其所參與的研究課題、研究進度相結合,進行數(shù)據定向分發(fā),保證數(shù)據使用權限在機構內部也能保持個體獨立。
數(shù)據管理員還可以自定義每個數(shù)據集訪問用戶的查看、使用或下載權限,實現(xiàn)數(shù)據公開且不落地,并通過平臺自動生成“數(shù)據賬本”,查看數(shù)據實時、完整的使用記錄, 從多個環(huán)節(jié)有效避免了數(shù)據的安全隱患。
另外,ModelWhale 支持為每份數(shù)據生成一套 DOI 標識,在認證數(shù)據權益的同時,他人也可以通過 DOI 號快速分享或查找到相關數(shù)據集,更進一步提升了數(shù)據價值利用的科學性和可持續(xù)性。
華東師范大學就曾采用這項機制來建設他們的研究數(shù)據中臺,打造了一個集數(shù)據沙箱、數(shù)據出版和數(shù)據公有鏈于一體的數(shù)據閉環(huán)系統(tǒng)。數(shù)據沙箱實現(xiàn)的是數(shù)據隔離和數(shù)據不落地分析,保護數(shù)據隱私和數(shù)據版權的同時,讓研究者可以線上分析數(shù)據,最大化地提升了數(shù)據的利用率;數(shù)據出版實現(xiàn)的是為數(shù)據集和數(shù)據富媒體綁定 DOI 鏈接,可以快速跳轉并精確定位到相關數(shù)據集,在完成數(shù)字對象標識的同時可以對數(shù)據定位、引證、溯源、故障追蹤,以及數(shù)據互操作等諸多功能;數(shù)據公有鏈實現(xiàn)的是以區(qū)塊鏈的形式記錄數(shù)據集的使用記錄,通過去中心化提升數(shù)據集歷史使用記錄的信用度,研究數(shù)據中臺還會將日志記錄通過區(qū)塊鏈算法的加密,然后廣播到區(qū)塊鏈每一個服務節(jié)點。
華東師范大學門戶頁展示
除了數(shù)據之外,ModelWhale 還支持更多類型的成果開放發(fā)布,比如研究項目、模型成果等。
科研人員可將優(yōu)質的數(shù)據集和已完成的研究項目一同公開分享或沉淀至機構的門戶頁,便于他人復現(xiàn),實現(xiàn)更大范圍的共享傳播。既能吸引更多研究者在平臺上進行相關課題的協(xié)同探索,也能在公開的過程中收集公眾的反饋,對數(shù)據和項目進行檢驗和完善,形成更多高價值科研成果。
算法模型作為數(shù)據驅動的研究中較為獨特的要素,ModelWhale 為模型開放也提供了專門設計。對于訓練完成的模型,科研人員可以方便地自行完成自動化部署并公開發(fā)布,他人則可以通過公開的外部鏈接直接應用模型,一方面提升了模型的實用性,另一方面,社會面的大規(guī)模應用也是檢驗模型的實際效能的一個過程。研究者可以根據平臺記錄下的模型被調用的次數(shù)、歷史、及使用過程等信息,來制定下一步研究計劃和優(yōu)化方向。
開放科研使研究的形態(tài)從獨立走向聚合,讓每一位科研人員既是生產者又是使用者,既是開拓者又是受益者。ModelWhale 持續(xù)關注各個科研主體在公開共享過程中的顧慮和訴求,打破基礎設施的壁壘,充分釋放數(shù)據驅動的研究價值。
結束語
隨著大規(guī)模科學數(shù)據的增長,數(shù)據驅動的科研協(xié)作將成為未來科學發(fā)展的必要條件。數(shù)字化給每個行業(yè)都帶來了很大的變化,但科學領域是一定存在其獨特性的,在面向未來的科研精神和科研意義之下,數(shù)字技術應當為科研工作者的探索持續(xù)賦能。
作為數(shù)據科學協(xié)同平臺,ModelWhale 希望能給每一位從事數(shù)據驅動的創(chuàng)新研究的開拓者提供支持。ModelWhale 提供了即開即用的云端分析環(huán)境,將科研數(shù)據管理、建模分析、模型服務、任務及權限管理等功能深度整合,可以使數(shù)據驅動的研究更加便捷高效。
過去5年來,清華大學、南開大學、華東師范大學等高等學府,國家氣象信息中心、國家人口健康科學數(shù)據中心、紫金山實驗室等先進科研組織都與 ModelWhale 進行深入合作。未來,ModelWhale 希望與更多高校和機構聯(lián)手,活用雙方所積累的海量數(shù)據資源,一同開拓新的研究與應用。ModelWhale 將持續(xù)升級產品功能,完善全方位服務體系,歡迎更多組織共同交流溝通。
了解更多科研協(xié)同解決方案:
可復現(xiàn)、開放科研、跨學科合作:數(shù)據驅動下的科研趨勢及應用方案
ModlWhale 同時支持 SaaS 云端使用及本地私有化部署,可滿足不同組織需求。
進入ModelWhale.com,申請免費試用(專業(yè)版/團隊版)。獲贈 CPU 和 GPU 算力!
如果你對 ModelWhale 有任何建議或疑問,歡迎掃描官網右側二維碼,【聯(lián)系MW】(移動端可點此鏈接),MoMo 有問必答 ~
???更多 ModelWhale 資料見:
- ModelWhale 產品介紹
- ModelWhale 如何助力組織內部協(xié)同
- ModelWhale 應用案例
總結
以上是生活随笔為你收集整理的开放科研:数据科学场景下如何让研究更加开放?的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 详谈4大主流CPU处理器技术架构
- 下一篇: 华中科技大学2021年博士研究生招生简章
