flume ng之组件介绍
1、channel
2、source
3、sink
4、直接讀取文件Source,有哪兩種方式?
5、Channel有幾種方式?
6、Sink在設(shè)置存儲(chǔ)數(shù)據(jù)時(shí),數(shù)據(jù)較多,較少的情況下,該如何處理?
Flume是一個(gè)非常不錯(cuò)的日志收集系統(tǒng),其設(shè)計(jì)理念非常易用,簡潔。并且是一個(gè)開源項(xiàng)目,基于Java開發(fā),可以進(jìn)行一些自定義的功能開發(fā)。運(yùn)行Flume時(shí),機(jī)器必須安裝JDK6.0以上的版本,并且,Flume目前只有Linux的啟動(dòng)腳本,沒有Windows環(huán)境的啟動(dòng)腳本。
Flume主要由3個(gè)重要的組件構(gòu)成:
Source:完成對(duì)日志數(shù)據(jù)的手機(jī),分成trasition和event打入到channel之中。
Channel:主要提供一個(gè)隊(duì)列的功能,對(duì)Source提供中的數(shù)據(jù)進(jìn)行簡單的緩存。
Sink:取出Channel中的數(shù)據(jù),進(jìn)行相應(yīng)的存儲(chǔ)文件系統(tǒng),數(shù)據(jù)庫,或者提交到遠(yuǎn)程服務(wù)器。
對(duì)現(xiàn)有程序改動(dòng)最小的使用方式是使用直接讀取程序原來記錄的日志文件,基本可以實(shí)現(xiàn)無縫接入,不需要對(duì)現(xiàn)有程序進(jìn)行任何改動(dòng)。
對(duì)于直接讀取文件Source,有兩種方式:
ExecSource:以運(yùn)行Linux命令的方式,持續(xù)的輸出最新的數(shù)據(jù),如tail -F 文件名指令,在這種方式下,取的文件名必須是指定的。
SpoolSource:是檢測(cè)配置的目錄下新增的文件,并將文件中的數(shù)據(jù)讀取出來。
需要注意兩點(diǎn):
1、拷貝到spool目錄下的文件不可以再打開編輯。
2、spool目錄下不可包含相應(yīng)的子目錄。
?
在實(shí)際使用的過程中,可以結(jié)合log4j使用,使用log4j的時(shí)候,將log4j的文件分割機(jī)制設(shè)為1分鐘一次,將文件拷貝到spool的監(jiān)控目錄。log4j有一個(gè)TimeRolling的插件,可以把log4j分割的文件拷貝到spool目錄。基本實(shí)現(xiàn)了實(shí)時(shí)的監(jiān)控。
Flume在傳完文件之后,將會(huì)修改文件的后綴,變?yōu)?COMPLETED(后綴也可以在配置文件中靈活指定)
ExecSource, SpoolSource對(duì)比:
ExecSource可以實(shí)現(xiàn)對(duì)日志的實(shí)時(shí)手機(jī),但是存在Flume不運(yùn)行或者指令執(zhí)行出錯(cuò)時(shí),將無法收集到日志數(shù)據(jù),無法保證日志數(shù)據(jù)的完整性。SpoolSource雖然無法實(shí)現(xiàn)實(shí)時(shí)的收集數(shù)據(jù),但是可以使用以分鐘的方式分割文件,趨近于實(shí)時(shí)。如果應(yīng)用無法實(shí)現(xiàn)以分鐘切割日志文件的話,可以兩種收集方式結(jié)合使用。
Channel有多重方式:
有MemoryChannel,JDBC Channel,MemoryRecoverChannel, FileChannel。MemoryChannel可以實(shí)現(xiàn)告訴的吞吐,但是無法保證數(shù)據(jù)的完整性。MemoryRecoverChannel在官方文檔的件以上已經(jīng)建議使用FileChannel來替換。FileChannel保證數(shù)據(jù)的完整性與一致性。在具體配置實(shí)現(xiàn)的FileChannel時(shí),建議FileChannel設(shè)置的目錄和程序的日志文件保存的目錄設(shè)成不同的磁盤,以便提高效率。
?
Sink在設(shè)置存儲(chǔ)數(shù)據(jù)時(shí),可以向文件系統(tǒng)中,數(shù)據(jù)庫中,hadoop中存儲(chǔ)數(shù)據(jù),在日志數(shù)據(jù)較少時(shí),可以將數(shù)據(jù)存儲(chǔ)在文件系統(tǒng)中,并且設(shè)定一定的時(shí)間間隔保存數(shù)據(jù)。在日志數(shù)據(jù)較多時(shí),可以將相應(yīng)的日志數(shù)據(jù)存儲(chǔ)到Hadoop中,便于日后進(jìn)行相應(yīng)的數(shù)據(jù)分析。
?
轉(zhuǎn)載于:https://www.cnblogs.com/man-li/p/4362152.html
總結(jié)
以上是生活随笔為你收集整理的flume ng之组件介绍的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: spring getbean 方法分析
- 下一篇: activity-alias的使用