Spark 1.0.0版本发布
前言
如今Spark終于邁出了里程碑一步,1.0.0標記的版本號出版物Spark1.0時代。1.0.0版本號不僅增加了非常多新特性。而且提供了更好的API支持。Spark SQL作為一個新的組件增加。支持在Spark上存儲和操作結構化的數據。已有的標準庫比方ML、Streaming和GraphX也得到了非常大程度上的增強。對Spark和Python的接口也變得更穩定。
下面是幾個基本的改進點:
融合YARN的安全機制
Hadoop有著自己的安全機制。包含認證和授權。Spark如今能夠和Hadoop/YARN的安全模型并存,也就是說Spark能夠對任務提交(job submission)進行認證,能夠使用HDFS的認證機制進行數據的安全傳輸,各組件之間也添加了互相認證。
改善了任務提交的流程
這個版本號在非常大程度上增強了Spark應用的提交。Spark啟用新的任務提交工具spark-submit tool以便可以通過一個普通進程向任一Spark集群提交應用程序。Spark的UI界面中也添加了歷史任務的記錄,方便了用戶查看已經結束了任務執行情況。
Spark SQL的增加
Spark SQL作為一個新組建添加到1.0.0版本號中,它能夠利用Spark進行結構化數據的存儲和操作,結構化數據既能夠賴在外部結構化數據源(當前支持Hive和Parquet),也能夠通過向已有RDD添加schema的方式得到。
Spark SQL提供了方便的調用接口,用戶能夠通過SQL語句來與Spark代碼交互。
當前Spark SQL使用Catalyst優化器來對SQL語句進行優化從而得到更有效的運行方案,而且能夠將結果存儲到Parquet格式中,在將來Spark SQL還會兼容其它的存儲系統。
MLib的改進
這個版本號的MLib添加了對Scala、Java、Python中稀疏特征向量的支持。其主要利用了線性方法、k-means和樸素貝葉斯在存儲和計算上的稀疏性。1.0.0的MLib還添加了幾個新的算法,包含為分類和回歸添加了可擴展的決策樹、矩陣算法的分布式實現(包含SVD和PCA)、模型評估函數以及L-BFGS算法。?
GraphX和Streaming的改進
GraphX在圖載入、邊反轉和鄰接計算方面對通信的要求更低,產生的RDD圖更簡單,從而在性能方面得到了非常大提升。
Spark Streaming提供了對Flume的支持,在狀態流轉換方面進行了很多優化,而且可以對長時間執行任務的狀態進行自己主動清理。
?
另外。Spark還對調用接口提供了更好的支持。包含對Java 1.8的支持,對Python很多其它版本號的兼容。使用對外內存進行RDD的cache,對小文件的更好支持等。
后記
非常榮幸從0.7.3版本號就開始熟悉、使用Spark,也非常開心自己介入了Spark開源項目的貢獻。1.0.0的release note中已經有了自己的身影。盡管做了僅僅是非常小的貢獻。可是還是感到一點點的滿足感,未來會繼續關注開源社區。
近期會增強對Spark的使用,并開始從架構上源代碼級別的分析Spark。
?
參考:http://spark.apache.org/releases/spark-release-1-0-0.html
聲明:
本文為原創。禁止用于不論什么商業用途,轉載請注明出處:http://blog.csdn.net/asongoficeandfire/article/details/27725401
總結
以上是生活随笔為你收集整理的Spark 1.0.0版本发布的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MyEcplise安装Freemarke
- 下一篇: 输入和学生成绩的输出