[DataAnalysis]机器学习数据类型和数据质量
生活随笔
收集整理的這篇文章主要介紹了
[DataAnalysis]机器学习数据类型和数据质量
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
數據類型
1、屬性:
屬性是對象的性質或者特性,它因對象而異,或隨著時間變化。
我們根據屬性值的運算定義下面四種屬性類型:
數據集的一般特性
1、維度:分析高維數據有時會陷入維災難,數據預處理的一個重要動機就是減少維度。
2、稀疏性:有些數據集如果具有非對稱特征的數據集(一個對象的大部分屬性上的值都是0,出現非零屬性值才是最重要的)。實際上稀疏性是一個優點,因為只有非零值才需要存儲和處理,這將節省大量的計算時間和存儲空間。
3、分辨率:分辨率太高,可能無法識別模式或者掩埋在噪聲中,如果分辨率太低,可能模式無法出現。
數據質量
1、測量誤差和數據收集錯誤
2、噪聲(測量誤差的隨機部分)和偽象(確定性的失真)
3、精度、偏倚和準確率
4、離群點
5、遺漏值
6、不一致的值
7、重復數據
8、應用問題:時效性和相關性
?
?
總結
以上是生活随笔為你收集整理的[DataAnalysis]机器学习数据类型和数据质量的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 状态空间方程的等价问题
- 下一篇: 5G学习-3GPP协议入门