SparkStreaming入门及例子
看書大概了解了下Streaming的原理,但是木有動過手啊。。。萬事開頭難啊,一個wordcount 2小時怎么都運行不出結(jié)果。是我太蠢了,好了言歸正傳。
SparkStreaming是一個批處理的流式計算框架,適合處理實時數(shù)據(jù)與歷史數(shù)據(jù)混合處理的場景(比如,你用streaming將實時數(shù)據(jù)讀入處理,再使用sparkSQL提取歷史數(shù)據(jù),與之關(guān)聯(lián)處理)。Spark Streaming將數(shù)據(jù)流以時間片為單位分割形成RDD,使用RDD操作處理每一塊數(shù)據(jù),沒塊數(shù)據(jù)都會生成一個spark JOB進行處理,最終以批處理方式處理每個時間片的數(shù)據(jù)。(多的就不解釋了,百度就好了~)
首先確保你安裝了hadoop和spark,在IDEA中也已入來了相應(yīng)jar包。
寫吧- -
新手要注意紅框部分,spark官網(wǎng)上給的例子是調(diào)用socketFileStream方法,這是通過socket連接遠程的,倘若只在本機上測試學(xué)習,就用textFileStream讀取本地文件路徑,沒錯是路徑不是文件,因為sparkStreaming是處理實時數(shù)據(jù)的,倘若直接指定一個文件,輸出后是無法得到結(jié)果的。所以新建了個路徑,在這里設(shè)置了Seconds(20)每20秒讀取一次。隨后run一下。
啟動后,將準備好的文件cp到這個路徑下,20秒過后結(jié)果就出來了,模擬了下實時數(shù)據(jù)。結(jié)束。
總結(jié)
以上是生活随笔為你收集整理的SparkStreaming入门及例子的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Objective-c 类的继承 方法重
- 下一篇: Java Web(5) Spring 下