大数据数据收集数据困难_大数据就是好数据吗?研究人员在处理大数据集时遭遇的 5 大挑战...
大數(shù)據(jù)給每個科研領(lǐng)域的研究方式帶來了前所未有的變化。每個領(lǐng)域中,研究人員可使用的工具皆有顯著性,大數(shù)據(jù)現(xiàn)在逐漸成為橫跨各學科領(lǐng)域的共同工具。大數(shù)據(jù)集的可取得性以及可存儲并共享大量的數(shù)據(jù)的能力為研究人員打開了科學探索的幾條途徑。
數(shù)據(jù)是研究工作的基礎,對研究人員有非常重要的價值,因此,大多數(shù)的研究人員都認為海量數(shù)據(jù)是一個福音,尤其是在遺傳學、天文學與粒子物理領(lǐng)域工作的人。雖然大數(shù)據(jù)現(xiàn)在被認為是一種無與倫比的科學模式,但統(tǒng)計人員建議科研人員要謹慎對待大數(shù)據(jù),因為大數(shù)據(jù)的本質(zhì)是多維度的,而且永遠都在變化。研究人員已經(jīng)接受了大數(shù)據(jù),但大數(shù)據(jù)不止帶來了機會,也帶來了復雜性。在處理大數(shù)據(jù)時候,學術(shù)圈面臨的主要挑戰(zhàn)有:
1. 有效管理數(shù)據(jù):存儲大量數(shù)據(jù)集對研究人員來說不止有設備問題還有經(jīng)濟上的困難,尤其是單位不提供支持時。除此之外,因為數(shù)據(jù)的隱私性、安全性和完整性可能會在跨國研究中牽涉到利益沖突,管理和共享大數(shù)據(jù)集變得異常復雜。因此,需要一個可以克服設備挑戰(zhàn)還有能讓已數(shù)據(jù)為本的研究能順利進行的永續(xù)發(fā)展的經(jīng)濟模式。
2. 數(shù)據(jù)收集重于研究設計:雖然數(shù)據(jù)對任何研究來說都是至關(guān)重要,很多時候收集數(shù)據(jù)的重要性要大于用心設計研究。有些科研人員都存在這樣的誤解,即更多的數(shù)據(jù)直接關(guān)系到更好的研究。許多時候收集大量數(shù)據(jù)的原因是人們認為這可以幫助研究,而忽略了數(shù)據(jù)的收集方式和用途,英國有一個類似案例,一個涉及 20,000 多名兒童的研究,要評估巴氏殺菌奶的好處,這個研究的設計和試驗執(zhí)行的規(guī)模遭到統(tǒng)計學家 William Gosset 的批評,他指出由于隨機化不足,不如只用 6 對雙胞胎進行研究會更可靠。
3. 大數(shù)據(jù)需要特殊工具才能分析:傳統(tǒng)的數(shù)據(jù)分析工具無法處理大數(shù)據(jù)。標準的軟件技術(shù)通常是設計用來分析小的數(shù)據(jù)集,但是大數(shù)據(jù)包含的數(shù)據(jù)量之大,傳統(tǒng)的工具可能要花大量的時間進行分析,或根本無法處理。因此,需要特殊的工具來連接數(shù)據(jù)到模型,實現(xiàn)準確的數(shù)據(jù)評估,微軟有一個的稱為 FaST-LMM(Factored Spectrally Transformed Linear Mixed Model)的算法就是一例。
4. 海量數(shù)據(jù)可能使數(shù)據(jù)解讀更具挑戰(zhàn)性:大數(shù)據(jù)包含不同來源的數(shù)據(jù),使得數(shù)據(jù)多元化并難以解釋。比如說,包含世界人口信息的數(shù)據(jù)集會有基于不同地理位置、生活方式等的數(shù)據(jù),并且可能使用不同的技術(shù)進行收集,研究人員可能無法考慮數(shù)據(jù)的所有面向,最后導致不正確的結(jié)論。因此,有必要制定可靠、能克服統(tǒng)計偏差的數(shù)據(jù)解釋程序。
5. 意圖在數(shù)據(jù)中找到模式是非常危險的:大數(shù)據(jù)很大,研究人員需要將數(shù)據(jù)集中有用的數(shù)據(jù)分開。然而,大多數(shù)情況下,與其排除不需要的數(shù)據(jù),人們傾向于直接尋找模式,直到找到能支持原先假設觀念的證據(jù)。這是進行研究時非常危險的陷阱。
數(shù)據(jù)是有價值的資產(chǎn),這點毋庸置疑,2012 年世界經(jīng)濟論壇中發(fā)表的宣言中,將數(shù)據(jù)當作經(jīng)濟資產(chǎn)的新類別說明了這個事實,大數(shù)據(jù)在推動科學發(fā)展中起到重要的作用。然而,處理大數(shù)據(jù)的缺點顯示出大數(shù)據(jù)并不總是等于好數(shù)據(jù),因此研究人員需要平衡數(shù)據(jù)與領(lǐng)域?qū)I(yè)知識和科學推理,將大數(shù)據(jù)的潛力最大化。
總結(jié)
以上是生活随笔為你收集整理的大数据数据收集数据困难_大数据就是好数据吗?研究人员在处理大数据集时遭遇的 5 大挑战...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: css两张图片怎么合在一起_web前端入
- 下一篇: python getopt参数参数自动补