當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

第二章 Spark RDD以及编程接口

發布時間：2024/2/28 编程问答 57 豆豆

生活随笔收集整理的這篇文章主要介紹了第二章 Spark RDD以及编程接口小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

第二章 Spark RDD以及編程接口

Spark的整個生態系統與Hadoop是完全兼容的，所以對于Hadoop所支持的文件類型或者數據庫類型，為了兼容hadoop所有版本，提供了兩套創建操作接口。對于外部存儲創建操作而言，hadoopRDD和newHadoopRDD是最為抽象的兩個函數接口，主要包括以下四個參數

輸入格式
指定數據輸入的類型，如TextInputFormat

鍵類型
指定[K,V]健值中K的類型

值類型
指定[K,V]健值中V的類型

分區值
指定由外部存儲生成的RDD的partition數量的最小值，如果沒有指定，系統會使用默認值defaultMinSplits

4. 轉換操作

mapU:ClassTag: RDD[U]
map 函數將RDD中類型為 T 的元素，一對一地映射為類型為 U 的元素。

distinct(): RDD[T]
distinct 函數返回RDD中所有不一樣的元素

flatMapU:ClassTag:RDD
flatMap 函數將RDD中的每一個元素進行一對多轉換

repartition(numPartitions:Int):RDD[T]
repartition 只是 coalesce 接口中shuffle 為 ture 的簡易實現

coalesce(numPartitions:Int,shuffle:Boolean=false):RDD[T]
假設RDD有N個分區，需要重新劃分成M個分區

如果N<M，一般情況下N個分區有數據分布不均的狀況，利用HashPartitioner函數將數據重新分區為M個，這時需要將shuffle參數設置為true

如果N>M且N和M相差不多（比如N是1000，M是100），那么就可以將N個分區中的若干個分區合并成一個新的分區，最終合并成M個分區，這時可以將shuffle設置為false（shuffle在false情況下，設置M>N，coalesce是不起作用的），不進行shuffle過程，父RDD和子RDD是窄依賴關系

如果N>M且N和M差距懸殊（比如N是1000，M是1），這個時候如果把shuffle參數設置為false，由于父子RDD是窄依賴，它們同處在一個stage中，就可能會造成spark程序運行的并行度不夠，從而影響性能。比如在M為1時，由于只有一個分區，所以只會有一個任務在運行，為了使coalesce之前的操作有更好的并行度，可以將shuffle設置為true

randomSplit(weights: Array[Double],seed: Long=System.nanoTime): Array][RDD[T]]
randomSplit函數是根據weights權重將一個RDD切分成多個RDD

glom: RDD[Array[T]]
而glom函數是將RDD中每一個分區中類型T的元素轉換成數組Array[T]，這樣每一個分區就只有一個數組元素

union(other: RDD[T]): RDD[T]
這些是針對RDD的集合操作，union操作將兩個RDD的數據進行合并，返回兩個RDD的并集（包含兩個RDD中相同的元素，不會去重）

intersection(other: RDD[T], partitioner: Partitoner)
intersection操作返回兩個RDD集合的交集，且交集中不會包含相同的元素

subtract(other: RDD[T]): RDD[T]
如果subtract所針對的兩個集合A和B，即操作是 val result=A.subtract(B)，那么result中將會包含在A中出現且B中不出現的元素。intersection和subtract一般情況都會有shuffle的過程

subtract(other:RDD[T], p:Partitioner): RDD[T]

mapPartitions[U: ClassTag](f: Iterator[T]=>Iterator[U], parservesPartitioning: Boolean = false): RDD[U]
mapPartitions與map轉換操作類似，只不過映射函數的輸入參數由RDD中的每一個元素變成了RDD中每一個分區的迭代器，那么已經有了map為什么還要mapPartitions函數呢？如果在映射的過程中需要頻繁創建額外的對象，map就顯得不高效了。例如，將RDD中的所有數據通過JDBC連接寫入數據庫中，如果使用map函數可能需要為每一個元素都創建一個connection，這樣開銷是很大的，如果利用mapPartitions接口，可以針對每一個分區創建一個connection。

mapPartitonsWithIndex[U:ClassTag](f: (Int,Iterator[T])=>Iterator[U], preservesPartitioning: Boolean=false): RDD[U]
mapPartitionsWithIndex和mapPartitions功能類似，只是輸入參數多了一個分區的ID。

zipU:ClassTag:RDD[T, U]
zip函數的功能是將兩個RDD組合成Key/Value（健/值）形式的RDD，這里默認兩個RDD的partition數量以及元素數量都相同，否則相同系統將會拋出異常。

zipPartitions[B: ClassTag, V:ClassTag](rdd2:RDD[B], preservesPartitioning:Boolean)(f:(Iterator[T],Iterator[B])=>Iterator[V]:RDD[V])
zipPartitions是將多個RDD安裝partition組合成為新的RDD，zipPartitions需要相互組合的RDD具有相同的分區數，但是對于每個分區中的元素數量是沒有要求的

未完待續…

5. 控制操作

cache(): RDD[T]

persist(): RDD[T]

persist(level:StorageLevel): RDD[T]

在Spark中對RDD進行持久化操作是一項非常重要的功能，可以將RDD持久化在不同層次的存儲介質中，以便后續的操作能夠重復使用，這對iterative和interactive的應用來說會極大地提高性能

checkpoint

checkpoint接口是將RDD持久化在HDFS上，其與persist（如果也持久化在磁盤上）的一個區別是checkpoint將會切斷此RDD之前的依賴關系，而persist接口依然保留著RDD的依賴關系

checkpoint主要作用

如果一個Spark程序會長時間駐留運行（如sparkStream一般會7x24小時運行），過長的依賴將會占用很多系統資源，那么定期將RDD進行checkpoint操作，能夠有效節省系統資源

維護過長的依賴關系還會出現一個問題，如果Spark在運行過程中出現節點失敗的情況，那么RDD進行容錯重算成本會非常高

6. 行動操作

1. 概述

行動操作是和轉換操作相對應的一種對RDD的操作類型，在Spark 程序中，每調用一次行動操作，都會觸發一次Spark的調度并返回相應的結果。

行動操作分為兩種類型

行動操作將標量或者集合返回給Spark客戶端程序，比如返回RDD中數據集的數量或者是返回RDD中的一部分符合條件的數據。

行動操作將RDD直接保存到外部文件系統或者數據庫中，比如將RDD保存到HDFS文件系統中

2. 集合標量行動操作

first：返回RDD中第一個元素

count：返回RDD中元素的個數

reduce(f:(T, T)=>T)：對RDD中的元素進行二元計算，返回計算結果

collect()/toArray()：以集合形式返回RDD的元素

take(num: Int)：將RDD作為集合，返回集合中[0, num-1]下標的元素

top(num: Int)：按照默認的或者是指定的排序規則，返回前num個元素

takeOrdered(num: Int)：以與top相反的排序規則，返回前num個元素

aggregate[U](zeroValue: U)(seqOp: (U, T)=>U, combOp(U, U)=>U)
aggregate行動操作中主要需要提供兩個函數，一個是seqOp函數，其將RDD（RDD中的每個元素的類型是T）中的每一個分區的數據聚合成類型為U的值。另一個函數combOp將各個分區聚合起來的值合并在一起得到最終類型U的返回值。這里的RDD元素的類型T和返回值的類型U可以為同一個類型。

fold(zeroValue: T)(op: (T, T)=>T)
fold是aggregate的便利接口，其中，op操作既是seqOp操作也是combOp操作，且最終的返回類型也是T，即與RDD中每一個元素的類型是一樣的

lookup(key: K): Seq[V]
lookup是針對(K, V)類型RDD的行動操作，對于給定的健值，返回與此健值相對應的所有值

3. 存儲行動操作

1. 概述

對于RDD最后的歸宿除了返回為集合和標量，也可以將RDD存儲到外部文件系統或者數據庫中，Spark系統和Hadoop是完全兼容的，所以對MapReduce所支持的讀寫文件或者數據庫類型，也同樣支持。此外，由于Hadoop的API有新舊兩個版本，所以Spark為了能兼容Hadoop所有的版本，也提供了兩套API

這里一共列出七個將RDD存儲到外部介質的舊版API，前六個API都是saveAsHadoopDataset這個API的簡易實現版本，僅僅支持將RDD存儲到HDFS中，而saveAsHadoopDataset的參數類型是jobConf，所以其不僅能將RDD存儲到HDFS上，也可以將RDD存儲到其它數據庫中，如Hbase，MangoDB等

將RDD保存到HDFS中通常情況需要關注或者設置五個參數，即文件保存的路徑、key值的class類型，Value值的class類型，RDD的輸出格式（outputFormat，如TextOutputFormat），以及最后一個相關的參數codec(如DefaultCodec、Gzip等)

2. 在Spark中針對新版Hadoop API提供了三個行動操作函數

與舊版的Hadoop API的接口使用方法類似，前兩個API支持將RDD保存到HDFS中，而saveAsNewAPIHadoopDataset則支持所有MapReduce兼容的輸入輸出類型。主要不同點是由于Hadoop API的改變，輸入參數的類型發生了變化。

總結

以上是生活随笔為你收集整理的第二章 Spark RDD以及编程接口的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： LeetCode——树：递归
下一篇：终于有代表提及物业问题，到底要不要取消物

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

第二章 Spark RDD以及编程接口

第二章 Spark RDD以及編程接口

目錄

1. Spark程序"Hello World"

1. 概述

2. 代碼實現

3. 行解

第一行

第二行

第三行

第四行

第五行

4. 重要概念

5. RDD與操作之間的關系

2. Spark RDD

1. 是什么？

2. 如何生成？

3. 特點？

1. 容錯處理

2. 持久化和分區

4. 一個分區的、高效容錯的而且能夠持久化的分布式數據集需要包含五個接口

1. RDD分區（partitions）

2. RDD優先位置（preferredLocations）

3. RDD依賴關系（dependencies）

4. RDD分區計算（compute）

5. RDD分區函數（partitioner）

3. 創建操作

1. 集合創建操作

2. 存儲創建操作

4. 轉換操作

5. 控制操作

6. 行動操作

1. 概述

2. 集合標量行動操作

3. 存儲行動操作

1. 概述

2. 在Spark中針對新版Hadoop API提供了三個行動操作函數

總結