新文速递 | 盒装数据:一种基于数据盒的数据产品形态
主題詞
數據產品;盒裝數據;產品形態;數據市場
近年來,國內數據交易機構探索通過數據交易方式實現大數據流通的機制和可行路徑,但在未能明確數據產品形態的情況下,數據的計量計價機制難以形成,數據交易面臨難以開展數據交易業務的困境,亟需設計一個可計量的標準數據產品形態。復旦大學的朱揚勇教授團隊在《大數據》預出版論文“盒裝數據:一種基于數據盒的數據產品形態”,基于數據盒模型,探索設計了一種數據產品的基礎標準形態——盒裝數據。一個盒裝數據產品包括盒內數據、盒外包裝兩部分。盒裝數據旨在為數據要素市場提供一個可計量計價的標準數據產品形態。
題目:盒裝數據:一種基于數據盒的數據產品形態
作者:葉雅珍,朱揚勇
單位:復旦大學計算機科學技術學院,上海市數據科學重點實驗室
引用格式:葉雅珍, 朱揚勇. 盒裝數據: 一種基于數據盒的數據產品形態[J]. 大數據, 2022, 8(3).?doi:10.11959/j.issn.2096-0271.2022030
YE Y Z, ZHU Y Y, et al. BoxedData: a data product form based on databox[J]. Big Data Research, 2022, 8(3).?doi:10.11959/j.issn.2096-0271.2022030
01
數據產品面臨哪些問題
作為一類新型產品,數據產品與其他產品一樣,要想實現在數據市場中有效交易和流通,就需要能對其開展可靠地計量,而數據產品計量要有可用可見的數據產品形態。
(1)數據產品的計量問題。①隨著時間的推移,所積累的數據類別、形式越來越多樣,復雜度越來越高,對由多種數據組成、類型多樣、規模龐大的大數據集進行可靠計量挑戰巨大。②另外,數據的信息屬性使得數據產品的價值因人而異、存在相對性,這也給數據產品計價帶來很大的技術挑戰。
(2)不同類別的數據難以有統一的標準,這對設計統一的數據產品形態造成了極大困難。①數據產品形式統一困難。數據產品形式可以是由單一類別數據組成的形式,亦可是由多種不同類別的數據構成的形式。如何對這些不同類型的數據進行統一管理是一個難題。②數據產品規模統一困難。數據產品的數據類別形式多樣且復雜,使得數據產品規模難以有固定大小的基本量。使用多大規模作為數據產品的衡量標準也是一個極具挑戰的難題。
02
什么是盒裝數據
一個盒裝數據產品包括盒內數據、盒外包裝兩部分。?
(1)盒內數據是指“時間+空間+內容”三維度的數據立方體組織,一般包括圖像、圖形、視頻、音頻、文本、結構化數據等多種數據類型。①內容維度,是指數據集中每個數據對象的內容,即數據對象有哪些屬性。如圖1所示,內容維度有開盤價、收盤價、最高價、最低價。②時間維度,是指每個數據對象的時間覆蓋范圍,即數據對象在不同時間上的值。如圖1所示,時間維度為每個交易日。③空間維度,是指符合數據產品描述的數據對象的空間覆蓋范圍,即滿足數據產品描述的數據對象全體。如圖1所示,空間維度為所有在時間維度上在某證券交易所掛牌的股票。對于多類型的數據產品,可以用數據盒的組合形式來表示,即將多個數據盒裝入一個大的數據盒中,形成復合型盒裝數據產品。
圖1?“某證券交易所2020年掛牌股票的行情數據集”盒裝數據產品
(2)盒外包裝包括產品登記證書,以及產品說明書、質量證書、合規證書等內容。①盒裝數據產品登記證書是擁有者對相關數據產品權屬的聲明,是對盒內數據的概述性介紹,由專門的數據產品登記主管部門審核發放。只有登記后的盒裝數據產品才具有合法性,才被允許在數據市場上進行流通和交易,并受法律保護。盒裝數據產品登記證書主要包含產品名稱、產品登記號、數據盒標牌等內容,以及產品說明書、質量證書、合規證書等附件(表1)。②產品說明書包括數據產品內容說明、生產方式/著作方式說明(被加工數據來源的合法性證明)和使用說明等。③盒裝數據的質量證書就是盒裝數據中的數據集達到相應質量標準和要求的證明性文件,是其開展交易流通的重要憑證。質量證書的相關內容可以作為判斷盒裝數據價值高低的依據。④盒內數據必須合法合規,即符合國家相關法律規定。盒裝數據的合規證書主要用于承諾盒內數據符合《數據安全法》《網絡安全法》《個人信息保護法》等國家有關法律要求。
表1 盒裝數據產品登記證書
03
盒裝數據如何計量
參照圖書的做法,設計一個標準化的盒裝數據產品的基礎規模和內容。盒裝數據的最小規模設定為1 GB,內容應至少包括圖像、圖形、音頻、視頻、結構化數據、文本等兩種以上數據類型,這兼顧了市場需求和監管需求。與“達到49頁的規模才能構成一本圖書”類似,“達到1 GB的數據規模才能構成一個盒裝數據”也是一個認定的規模數值,不是一個科學的界定,具體的標準規模還有待于未來實踐總結和完善。
更多技術細節請閱讀原文:
http://www.infocomm-journal.com/bdr/CN/10.11959/j.issn.2096-0271.2022030
聯系我們:
Tel:010-81055448
? ? ? ?010-81055490
? ? ? ?010-81055534
E-mail:bdr@bjxintong.com.cn?
http://www.infocomm-journal.com/bdr
http://www.j-bigdataresearch.com.cn/
轉載、合作:010-81055307
大數據期刊
《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的期刊,已成功入選中國科技核心期刊、中國計算機學會會刊、中國計算機學會推薦中文科技期刊,以及信息通信領域高質量科技期刊分級目錄、計算領域高質量科技期刊分級目錄,并多次被評為國家哲學社會科學文獻中心學術期刊數據庫“綜合性人文社會科學”學科最受歡迎期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
總結
以上是生活随笔為你收集整理的新文速递 | 盒装数据:一种基于数据盒的数据产品形态的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: BugkuCTF-reverse:入门逆
- 下一篇: 黑马程序员python笔记_三年Pyth