BigBrother的大数据之旅Day 14 某项目流程
某平臺日志項目流程
架構分析
1 埋點程序把數據 以url的方式提交給nginx服務器
2 nginx服務器把日志信息(文本文件)保存到本地硬盤
3 flume,安裝中nginx上通過主動方式讀取日志信息,源為本地磁盤,目的地為hdfs
4 在ide上運行數據清洗程序把,數據提交到hbase數據庫
5 使用mr程序對hbase的數據進行處理,存放到mysql中
6 使用hive創建外部表,關聯到hbase中到數據,通過hql語句保存結果到hive中(實質是hdfs上)
7 通過sqoop工具把hive中的數據導入mysql中
Flume安裝和配置
Flume是分布式的日志采集、聚合和傳輸的系統。
1 Flume支持在日志系統中定制各類數據發送方和接收方。
2 當前Flume有兩個版本Flume 0.9X版本的統稱Flume-og,Flume1.X版本的統稱Flume-ng。
source: 數據的源頭
channel: 數據的通道
sink:可以理解為數據的目的地
每個flume為一個agent
一般很少使用單個agent,一般使用兩層架構,一個flume連接多個flume
配置過程
1 解壓flume: apache-flume-1.6.0-bin
2 在flume的env.sh中添加java_home
3 在profile文件中添加flume的環境變量
export FLUME_HOME=/usr/local/flume/apache-flume-1.6.0-bin/ export PATH=$PATH:$FLUME_HOME/bin記得一定要source /etc/profile文件
4 查看是否安裝成功
5配置文件
配置文件在conf中有個conf.temple模板
cp一份到任意目錄,開始配置吧
source分為主動和被動源,本次使用的是主動源,如exec
被動源如JMS
如果sink為hdfs,那么必須在flume的服務器上有hadoop
使用命令:
bin/flume-ng agent --conf conf目錄 --conf-file flume配置文件 --name a1(默認a1和配置文件中需相同) -Dflume.root.logger=INFO,console總結
以上是生活随笔為你收集整理的BigBrother的大数据之旅Day 14 某项目流程的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java+springmvc+vues
- 下一篇: google earth engine(