當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Spark 1.0.0版本发布

發布時間：2025/7/14 编程问答 25 豆豆

生活随笔收集整理的這篇文章主要介紹了 Spark 1.0.0版本发布小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前言

如今Spark終于邁出了里程碑一步，1.0.0標記的版本號出版物Spark1.0時代。1.0.0版本號不僅增加了非常多新特性。而且提供了更好的API支持。Spark SQL作為一個新的組件增加。支持在Spark上存儲和操作結構化的數據。已有的標準庫比方ML、Streaming和GraphX也得到了非常大程度上的增強。對Spark和Python的接口也變得更穩定。

下面是幾個基本的改進點：

融合YARN的安全機制

Hadoop有著自己的安全機制。包含認證和授權。Spark如今能夠和Hadoop/YARN的安全模型并存，也就是說Spark能夠對任務提交（job submission）進行認證，能夠使用HDFS的認證機制進行數據的安全傳輸，各組件之間也添加了互相認證。

改善了任務提交的流程

這個版本號在非常大程度上增強了Spark應用的提交。Spark啟用新的任務提交工具spark-submit tool以便可以通過一個普通進程向任一Spark集群提交應用程序。Spark的UI界面中也添加了歷史任務的記錄，方便了用戶查看已經結束了任務執行情況。

Spark SQL的增加

Spark SQL作為一個新組建添加到1.0.0版本號中，它能夠利用Spark進行結構化數據的存儲和操作，結構化數據既能夠賴在外部結構化數據源（當前支持Hive和Parquet），也能夠通過向已有RDD添加schema的方式得到。

Spark SQL提供了方便的調用接口，用戶能夠通過SQL語句來與Spark代碼交互。

當前Spark SQL使用Catalyst優化器來對SQL語句進行優化從而得到更有效的運行方案，而且能夠將結果存儲到Parquet格式中，在將來Spark SQL還會兼容其它的存儲系統。

MLib的改進

這個版本號的MLib添加了對Scala、Java、Python中稀疏特征向量的支持。其主要利用了線性方法、k-means和樸素貝葉斯在存儲和計算上的稀疏性。1.0.0的MLib還添加了幾個新的算法，包含為分類和回歸添加了可擴展的決策樹、矩陣算法的分布式實現（包含SVD和PCA）、模型評估函數以及L-BFGS算法。?

GraphX和Streaming的改進

GraphX在圖載入、邊反轉和鄰接計算方面對通信的要求更低，產生的RDD圖更簡單，從而在性能方面得到了非常大提升。

Spark Streaming提供了對Flume的支持，在狀態流轉換方面進行了很多優化，而且可以對長時間執行任務的狀態進行自己主動清理。

另外。Spark還對調用接口提供了更好的支持。包含對Java 1.8的支持，對Python很多其它版本號的兼容。使用對外內存進行RDD的cache，對小文件的更好支持等。

后記

非常榮幸從0.7.3版本號就開始熟悉、使用Spark，也非常開心自己介入了Spark開源項目的貢獻。1.0.0的release note中已經有了自己的身影。盡管做了僅僅是非常小的貢獻。可是還是感到一點點的滿足感，未來會繼續關注開源社區。

近期會增強對Spark的使用，并開始從架構上源代碼級別的分析Spark。

參考：http://spark.apache.org/releases/spark-release-1-0-0.html

聲明：

本文為原創。禁止用于不論什么商業用途，轉載請注明出處：http://blog.csdn.net/asongoficeandfire/article/details/27725401

總結

以上是生活随笔為你收集整理的Spark 1.0.0版本发布的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

版本
Spark

上一篇： MyEcplise安装Freemarke
下一篇：输入和学生成绩的输出