【干货索引】阿里云大数据计算服务MaxCompute与生态系统的融合
摘要: MaxCompute大家都不陌生,之前產(chǎn)品名稱叫ODPS,之后隨國際化而更名。從支持阿里集團(tuán)內(nèi)部99%數(shù)據(jù)業(yè)務(wù)到計(jì)算能力對外輸出,幫助政府、互聯(lián)網(wǎng)公司、金融等進(jìn)行大數(shù)據(jù)項(xiàng)目服務(wù),使得數(shù)據(jù)變現(xiàn)。很多開發(fā)者都會(huì)把MaxCompute和開源社區(qū)Hadoop、hive進(jìn)行比較,此處不做過多評論,各有優(yōu)勢。
點(diǎn)擊查看原文
MaxCompute大家都不陌生,之前產(chǎn)品名稱叫ODPS,之后隨國際化而更名。從支持阿里集團(tuán)內(nèi)部99%數(shù)據(jù)業(yè)務(wù)到計(jì)算能力對外輸出,幫助政府、互聯(lián)網(wǎng)公司、金融等進(jìn)行大數(shù)據(jù)項(xiàng)目服務(wù),使得數(shù)據(jù)變現(xiàn)。很多開發(fā)者都會(huì)把MaxCompute和開源社區(qū)Hadoop、hive進(jìn)行比較,此處不做過多評論,各有優(yōu)勢。但是不得不說MaxCompute這幾年在生態(tài)上向前走了一大步。
關(guān)于 MaxCompute2.0 對開源系統(tǒng)的支持與融合 的整體介紹及團(tuán)隊(duì)規(guī)劃,詳見文檔。
最近,我也針對MaxCompute在生態(tài)融合上也進(jìn)行了一些研究和拜讀,因?yàn)楝F(xiàn)在資料還比較零散,就把自己在過程中遇到的好材料統(tǒng)一為大家梳理如下,包括SDK、JDBC等。
MaxCompute SDK
首先我們先來看SDK,想必很多有能力的互聯(lián)網(wǎng)公司都有大量的個(gè)性化需求,都會(huì)對SDK/API有一些需求,比如小黃車這樣的體量大的客戶,就基于MaxCompute SDK做了大量的應(yīng)用。那具體SDK包括Java、Python、R以及PHP(PHP為社區(qū)提供,并非阿里云官方出品,但都可以滿足大部分需求)。
Java SDK:MaxCompute團(tuán)隊(duì)官方開發(fā)并維護(hù),具體可以詳見:官網(wǎng)文檔 和 SDK Java DOC
Python SDK:MaxCompute團(tuán)隊(duì)官方開發(fā)并維護(hù)的PyODPS,具體可以詳見:官網(wǎng)文檔 和 云棲社區(qū)博客。
更大強(qiáng)大的功能,大家可以期待下團(tuán)隊(duì)將在北京云棲大會(huì)對外正式公測的python UDF,這將大大的提高python開發(fā)者對MaxCompute的開發(fā)效率和功能。
R SDK:RODPS也較大滿足開發(fā)者使用R做數(shù)據(jù)分析的需求,具體安裝及使用可以詳見 云棲社區(qū)博文
PHP SDK:PHP SDK并非MaxCompute團(tuán)隊(duì)官方出品,由社區(qū)招募完成開發(fā)工作,具體有PHP需求的同學(xué)也可以參考PHP SDK文檔,可以滿足PHP開發(fā)的大部分需求。
Ruby SDK:同PHP SDK由開源愛好者貢獻(xiàn),具體詳見:https://github.com/aliyun-beta/aliyun-odps-ruby-sdk
MaxCompute JDBC 2.2 發(fā)布說明
對接已有軟件并提供標(biāo)準(zhǔn)JDBC編程接口,MaxCompute JDBC 2.2正式版已于2017年2月24日正式發(fā)布。
github地址:https://github.com/aliyun/aliyun-odps-jdbc/releases/tag/v2.2
V2.2詳細(xì)說明:https://yq.aliyun.com/articles/72791
V2.0詳細(xì)說明:https://yq.aliyun.com/articles/59443
通過Apache Zeppelin 快速實(shí)現(xiàn)數(shù)據(jù)可視化
借力QlikView玩轉(zhuǎn)數(shù)據(jù)分析
Hive Proxy
提供Hive Thrift協(xié)議兼容接口,對接Hive社區(qū)已有的工具。Hive Proxy 部署在客戶端,將 Hive 的 thrift 請求轉(zhuǎn)換成 MaxCompute 的 Restful API 請求,可以用來直接對接諸如 Tableau、Qlik 這樣不直接支持 JDBC 的 BI 工具,或者 HPL 這樣的 Hive 組件,詳見 博文。
示例1:復(fù)用Hive ODBC實(shí)現(xiàn)Tableau到MaxCompute的連通
示例2:復(fù)用Hive JDBC實(shí)現(xiàn)Beeline到MaxCompute的連通
具體詳見:https://yq.aliyun.com/articles/61262
ETL tool-數(shù)據(jù)上云工具
Kettle:[ETL實(shí)踐指南]基于Kettle的MaxCompute插件實(shí)現(xiàn)數(shù)據(jù)上云
sqoop:MaxCompute有一款是基于社區(qū)sqoop 1.4.6版本開發(fā)的Sqoop,增加了對MaxCompute的支持,可以支持將數(shù)據(jù)從Mysql等關(guān)系數(shù)據(jù)庫和MaxCompute的導(dǎo)入和導(dǎo)出,也支持從Hdfs/Hive導(dǎo)入數(shù)據(jù)到MaxCompute的表中。 具體用法可以參考:https://github.com/aliyun/aliyun-maxcompute-data-collectors/wiki/odps-sqoop
OGG:主要適用于源庫為Oracle,可以通過其采集實(shí)時(shí)更新數(shù)據(jù)到DataHub中。 通過OGG將數(shù)據(jù)采集至MaxCompute/基于OGG Datahub插件將Oracle數(shù)據(jù)同步上云
Fluentd:該插件遵守Fluentd輸出插件開發(fā)規(guī)范,安裝方便,可以很方便地將采集得到的數(shù)據(jù)寫到DataHub。通過Fluentd將數(shù)據(jù)采集至MaxCompute
Flume:Flume插件下載并安裝地址,基于Apache Flume Datahub插件將日志數(shù)據(jù)同步上云,點(diǎn)擊進(jìn)入
Logstash:Logstash是一種分布式日志收集框架,非常簡潔強(qiáng)大,經(jīng)常與ElasticSearch,Kibana配置,組成著名的ELK技術(shù)棧,非常適合用來做日志數(shù)據(jù)的分析。 通過Logstash將日志數(shù)據(jù)采集至MaxCompute。
關(guān)于Logstash將日志采集MaxCompute,然后做數(shù)據(jù)分析有詳細(xì)step by step 文檔,點(diǎn)擊進(jìn)入。
總結(jié)
以上是生活随笔為你收集整理的【干货索引】阿里云大数据计算服务MaxCompute与生态系统的融合的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 八年磨一剑,阿里云ApsaraDB fo
- 下一篇: MaxCompute使用常见问题总结