大数据技术笔记之数据采集和预处理
1.大數(shù)據(jù)采集
- 大數(shù)據(jù)采集包含:系統(tǒng)日志采集方法、網(wǎng)絡(luò)數(shù)據(jù)采集方法(通過網(wǎng)絡(luò)爬蟲實現(xiàn))、其他數(shù)據(jù)采集(通過特定的接口)
1.1 系統(tǒng)日志采集方法
Flume: 分布式日志收集系統(tǒng),最初由Cloudera 開發(fā),現(xiàn)是Apache的一個開源項目
Chukwa:開源分布式數(shù)據(jù)收集系統(tǒng),是Hadoop 的組成部分,構(gòu)建在 hdfs 和 map/reduce 框架之上
Scrible:Scribe是facebook開源的日志收集系統(tǒng),在facebook內(nèi)部已經(jīng)得到大量的應(yīng)用
Kafka:最早是LinkedIn的開發(fā)的消息系統(tǒng),現(xiàn)是Apache的一個開源項目
2數(shù)據(jù)預(yù)處理原理
通過數(shù)據(jù)預(yù)處理工作, 可以使殘缺的數(shù)據(jù)完整 ,并將錯誤的數(shù)據(jù)糾正 、多余的數(shù)據(jù)去除,進 而將所需的數(shù)據(jù)挑選出 來,并且進行數(shù)據(jù)集成 。數(shù)據(jù)預(yù)處理的常見方 法有數(shù)據(jù)清洗、數(shù)據(jù)集 成與數(shù)據(jù)變換。
2.1數(shù)據(jù)清洗
噪聲的處理
數(shù)據(jù)清洗可以視為一個過程,包括檢測偏差和糾正偏差兩個步驟。
檢查偏差:可以使用已有的關(guān)于數(shù)據(jù)性質(zhì)的知識發(fā)現(xiàn)噪聲、離群點和需要考察的不尋常 的值。這種知識或“關(guān)于數(shù)據(jù)的數(shù)據(jù)”稱為元數(shù)據(jù)。
糾正偏差:即一旦發(fā)現(xiàn)偏差,通常需要定義并使用一系列的變換來糾正它們。但這些工 具只支持有限的變換,因此,常常可能需要為數(shù)據(jù)清洗過程的這一步編寫定 制的程序
2.2數(shù)據(jù)集成
2.3數(shù)據(jù)變換
3.數(shù)據(jù)倉庫與ETL工具
總結(jié)
以上是生活随笔為你收集整理的大数据技术笔记之数据采集和预处理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《数据结构与算法之美》21~25笔记
- 下一篇: 为什么将表格的method改为post后