【数据挖掘导论】——数据质量
生活随笔
收集整理的這篇文章主要介紹了
【数据挖掘导论】——数据质量
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
數據質量
數據挖掘使用的數據一般是為其它用途收集或者收集的時候還沒有明白目的。
測量和數據收集問題 完美的數據在實際中差點兒是不存在的,對于存在的數據質量問題,我們先定義測量誤差和數據收集錯誤,然后考慮測量誤差的各種問題:噪聲,偽像。偏倚,精度和精確度。
測量誤差(measurements error)是指測量過程中導致的問題,如:記錄的值與實際的值不同樣。 數據收集錯誤(data collection error)是指諸如遺漏數據對象或屬性值,或不當地包括了其它數據對象等錯誤。如:特定的物種研究可能混入相似物種的數據。測量和數據收集錯誤可能是系統的也可能是隨機的。
噪聲是測量誤差的隨即部分,如2-5顯示被隨機噪聲干擾后的時間序列,假設噪聲很的多,甚至會掩蓋原有的數據。
圖2-6顯示的三組被加入噪聲點前后的數據點集。
噪聲通經常使用于包括時間或空間分量的數據,在這些情況下,能夠使用圖形或信號處理技術來降噪,但全然的消除是很困難的。所以數據挖掘都關注涉及魯棒算法(robust algorithm),即在有噪聲干擾下也能產生被接受的結果。數據錯誤也可能是更確定性現象的結果,如一組數據在同一個地方出現同樣的錯誤。這樣的確定性失真稱作偽像(artifact)
精度(precision):反復測量值之間的接近程度 偏倚(bias):測量值與被測量值之間的系統的變差 假定我們有1克的標準砝碼,想評估新天平的精度和偏倚,稱重5次得到{1.015 , 0990 , 1.013 , 1.001,0.986}這些值的平均值是1.001,因此偏倚是0.001,。用標準差度量。精度是0.013.
準確率:被測量的測量值與實際值之間的接近度。 準確度依賴于精度和偏倚,還有一個重要的方面是有效數字(significant digit)的使用,其目的是僅使用數據準確度所能確定的數字位數表示測量或計算結果。
離群點(outlier)是在某種意義上具有不同與數據集 中其它 大部分 數據對象的特征 的數據對象。或是相對于該屬性的典型值來說不平常的屬性值。
遺漏值 一個對象遺漏一個或多個屬性值的情況還是非常尋常的。有時甚至還會出現信息收集不全的情況。
不一致的值 數據可能包括不一致的值,如:帳號和password由于手誤填寫錯誤等。不管是什么原因導致不一致的值。重要是能檢測出來,而且糾正。
反復數據 數據集可能包括反復的數據對象,對于反復的數據一般都進行檢測和刪除。但做這些步驟之前,得處理兩個問題:假設兩個對象實際代表同一個對象,則相應的屬性值必定不同。必須解決這些不一致的值。
數據挖掘使用的數據一般是為其它用途收集或者收集的時候還沒有明白目的。
因此數據經常不能在數據的源頭控制質量。為了避免數據質量的問題,所以數據挖掘著眼于兩個方面:數據質量問題的檢測和糾正(數據清理);使用能夠容忍低質量數據的算法。
測量和數據收集問題 完美的數據在實際中差點兒是不存在的,對于存在的數據質量問題,我們先定義測量誤差和數據收集錯誤,然后考慮測量誤差的各種問題:噪聲,偽像。偏倚,精度和精確度。
接著討論測量和數據收集的數據質量問題:離群點,遺漏和不一致的值,反復數據。
測量誤差(measurements error)是指測量過程中導致的問題,如:記錄的值與實際的值不同樣。 數據收集錯誤(data collection error)是指諸如遺漏數據對象或屬性值,或不當地包括了其它數據對象等錯誤。如:特定的物種研究可能混入相似物種的數據。測量和數據收集錯誤可能是系統的也可能是隨機的。
噪聲是測量誤差的隨即部分,如2-5顯示被隨機噪聲干擾后的時間序列,假設噪聲很的多,甚至會掩蓋原有的數據。
圖2-6顯示的三組被加入噪聲點前后的數據點集。
噪聲通經常使用于包括時間或空間分量的數據,在這些情況下,能夠使用圖形或信號處理技術來降噪,但全然的消除是很困難的。所以數據挖掘都關注涉及魯棒算法(robust algorithm),即在有噪聲干擾下也能產生被接受的結果。數據錯誤也可能是更確定性現象的結果,如一組數據在同一個地方出現同樣的錯誤。這樣的確定性失真稱作偽像(artifact)
精度(precision):反復測量值之間的接近程度 偏倚(bias):測量值與被測量值之間的系統的變差 假定我們有1克的標準砝碼,想評估新天平的精度和偏倚,稱重5次得到{1.015 , 0990 , 1.013 , 1.001,0.986}這些值的平均值是1.001,因此偏倚是0.001,。用標準差度量。精度是0.013.
準確率:被測量的測量值與實際值之間的接近度。 準確度依賴于精度和偏倚,還有一個重要的方面是有效數字(significant digit)的使用,其目的是僅使用數據準確度所能確定的數字位數表示測量或計算結果。
離群點(outlier)是在某種意義上具有不同與數據集 中其它 大部分 數據對象的特征 的數據對象。或是相對于該屬性的典型值來說不平常的屬性值。
稱為異常(anomalous)對象或異常值。
須要注意的是差別噪聲和離群點:離群點能夠是合法的數據對象或值。因此不像噪聲,離群點本身是人們感興趣的對象。
遺漏值 一個對象遺漏一個或多個屬性值的情況還是非常尋常的。有時甚至還會出現信息收集不全的情況。
但不管何種情況,在數據分析時都應當考慮遺漏值。
那怎么應對遺漏值:
- 刪除數據對象或屬性
- 預計遺漏值
- 分析時忽略遺漏值
不一致的值 數據可能包括不一致的值,如:帳號和password由于手誤填寫錯誤等。不管是什么原因導致不一致的值。重要是能檢測出來,而且糾正。
反復數據 數據集可能包括反復的數據對象,對于反復的數據一般都進行檢測和刪除。但做這些步驟之前,得處理兩個問題:假設兩個對象實際代表同一個對象,則相應的屬性值必定不同。必須解決這些不一致的值。
須要避免意外將兩個相似但不反復的數據對象合并在一起;去反復(deduplication)通常表示這一過程。
轉載于:https://www.cnblogs.com/jzssuanfa/p/7142178.html
總結
以上是生活随笔為你收集整理的【数据挖掘导论】——数据质量的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: iOS 13 “离线查找”功能有什么作用
- 下一篇: iPhone 保修期内哪些情况可以获得免