spark大数据基本概念整理以及软件下载链接
注意:
 所謂的hive on spark就是把mapreduce替換為spark
 而spark on hive僅僅是spark連接hive
-------------------------下面是spark下載連接--------------------------
 spark下載地址
 https://archive.apache.org/dist/spark/
 ---------------------------下面是hadoop下載鏈接中---------------
 http://mirror.bit.edu.cn/apache/hadoop/
為什么分成common和core呢?
 答案如下:
 To help provide some additional details regarding the differences between Hadoop-common, Hadoop-core and Hadoop-client, from a high-level perspective:
Hadoop-common refers to the commonly used utilities and libraries that support the Hadoop modules.
 Hadoop-core is the same as Hadoop-common; It was renamed to Hadoop-common in July 2009, per https://hadoop.apache.org/.
 Hadoop-client refers to the client libraries used to communicate with Hadoop’s common components (HDFS, MapReduce, YARN) including but not limited to logging and codecs for example.
 Generally speaking, for developers who build apps that submit to YARN, run a MR job, or access files from HDFS use Hadoop-client libraries.
---------------------------hadoop下載連接-----------------
 http://hadoop.apache.org/releases.html
 ---------------------------sqoop下載連接-----------------
 http://archive.apache.org/dist/sqoop/
http://mirrors.hust.edu.cn/apache/hive/
 這個連接中的hive和hive-storage是什么區(qū)別,分別是什么意思?
如果是spark搞機器學(xué)習(xí),下載common那個就足夠了
 參考鏈接如下:
 https://stackoverflow.com/questions/28856096/differences-between-hadoop-common-hadoop-core-and-hadoop-client
--------maven下載地址----------------------------
http://maven.aliyun.com/nexus/#welcome
 這個鏈接我看了下,有時候搜到的包不是想要的包
---------------------這個連接中的這些很不錯-----------
 https://www.v2ex.com/t/241917
 鏈接中目前常用的是這么幾點
 4 、我們測試網(wǎng)經(jīng)常出現(xiàn)找不到第三方 jar 的情況,如果是用 CDH 的同學(xué)一般會遇到,就是在 CDH 5.4 開始, CDH 的技術(shù)支持人員說他們?nèi)サ袅?hbase 等一些 jar ,他們認那些 jar 已經(jīng)不需要耦合在自己的 classpath 中,這個情況可以通過 spark.executor.extraClassPath 方式添加進來。
 5 、一些新入門的人會遇到搞不清 transform 和 action ,沒有明白 transform 是 lazy 的,需要 action 觸發(fā),并且兩個 action 前后調(diào)用效果可能不一樣。
 6 、大家使用過程當(dāng)中,對需要重復(fù)使用的 RDD ,一定要做 cache ,性能提升會很明顯。
另外要注意解決spark數(shù)據(jù)消費不均勻的問題,似乎需要用到parquet
spark主要使用yarn和hdfs
 #-------------------------------------------------------------------
 mongodb注冊賬號
 appleyuchi@163.com
 !QAZ2wsx
總結(jié)
以上是生活随笔為你收集整理的spark大数据基本概念整理以及软件下载链接的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: NMN产品调研
- 下一篇: spark大数据基础概念
