人人皆可大数据!SACC教你玩转阿里ODPS
人人皆可大數據!SACC教你玩轉阿里ODPS
【IT168 專稿】為什么我們使用搜索引擎時,不同的用戶搜索同樣的關鍵詞看到的廣告卻不同?為什么我們到電子商務網站購物時,每次瀏覽同樣的商品時都可以得到不同的商品推薦?你有沒有想過,你所擁有的數據蘊含著怎樣的價值?這就是數據分析的意義所在。
今年7月8日,阿里云計算正式發布了核武級大數據產品——ODPS。ODPS的出現讓玩轉大數據不再是大企業的專屬技能。通過ODPS在線服務,小公司與小團隊可以對擁有的海量數據進行快速分析挖掘。ODPS可在6小時內處理100PB數據,相當于1億部高清電影。此前,全球掌握這種能力的公司屈指可數,如Google、亞馬遜等。
五年間,阿里云的工程師們寫下250萬行代碼,不斷打磨ODPS。正是這支幕后開發團隊促就了這個平民化大數據分析平臺的誕生。近日,IT168記者有幸采訪到了阿里巴巴數據平臺事業部高級專家余波先生,請他講述了ODPS背后的故事。同時作為技術的實踐者,他也分享了自己的職場經驗,并為架構師的發展提供了寶貴的建議。
▲阿里巴巴數據平臺事業部高級專家余波
嘉賓介紹:
2006年畢業于中科院計算所,計算機軟件與理論專業博士,主要從事數據庫管理系統方面與分布式系統的研究。2009年加入阿里巴巴,先后主持開發了ODPS服務框架、5k跨集群復制和多控制集群等多個項目,是大規模離線數據平臺的主要設計者之一,目前負責大規模機器學習平臺的建設,主要興趣在大規模分布式系統、機器學習、數據挖掘等領域。
全心投入 敢于放手
在余波看來,他其實并不是一位嚴格意義上的架構師。談到他的職業發展之路,余波表示,離開校園之后,對發paper這種事多少有些厭倦,就投身入coding這種有前途的事業當中來。最開始由于項目的原因,接觸了一些開源項目,再加上自己平時有些愛琢磨,所以寫代碼逐漸有一些潔癖,非常討厭寫多余的東西。再后來,慢慢項目大了,會帶幾個同學一起做,到最后形成一個穩定的團隊。
在這個過程中,他會逼迫自己放手去讓別人做具體的編程,而自己要在大的架構上面把握好方向、在關鍵細節上控制好質量,所以相對是一個比較自然的過程。余波坦言,他做事情一般不多去想結果,只要想做了,就會全力投入去做,對過程反而會更關注一些,不過一般結果都還好,這反過來又加強了他一貫盲目自信的特性,敢于去接受各種變化和挑戰。
人人皆可大數據 ODPS降低兩大門檻
ODPS號稱是阿里云5年的巔峰之作,阿里金融、淘寶指數、數據魔方等關鍵數據業務的離線處理作業都運行在ODPS之上。而如今,ODPS已正式對外商用,這種大數據處理能力的開放究竟會對我們日常生活產生哪些影響? 對此,余波笑稱:“大數據這個概念現在很火,有個笑話說現在大數據分析專家的飽和量已經超過北京出租車司機的數量,大數據怎么影響人們的日常生活,我相信很多人都能比我講到好。”
他認為,ODPS正式對外商用的最大意義,是極大的降低了人們使用大數據的門檻。而這種門檻包括兩個方面:一個是技術方面,之所以叫大數據,不光是數據量大,大小從幾T到幾P,而且通常數據內容和形式都非常復雜,維度多、數據質量也參差不齊,處理這樣的數據除了需要強大的計算能力,還需要豐富、靈活并且簡單易用的方法。
ODPS支持SQL、MapReduce、圖計算、機器學習等多種編程模型來幫助用戶,對于數據倉庫的用戶,還可以像以前一樣簡單寫寫SQL就能解決問題,對于追求更高級功能的一些用戶,可以自己寫一個Java包,用mapreduce來對數據做加工,對于搞機器學習的用戶,可以直接用我們提供的常見算法包,運行各種算法來訓練模型和做在線預測。借助ODPS,用戶可以只專注于自己的業務邏輯,不用擔心數據量大的問題,高效的得到計算結果,也不用去關心底層復雜的分布式系統常見的問題,如網絡、當機等。
另一方面則是運維,這個是云計算帶來的好處,你不需要一個運維團隊來維護集群以及和硬件打交道,ODPS以Restful API的方式提供服務,你只要能連上網、在阿里云上建立賬號,就能享受到大數據處理的服務。
不忘初心 方得始終
在余波眼中,數據分析工程師的未來將會更有前(錢)景。為什么會有大數據,大數據是怎么產生的呢,是人們產生并收集了更多的數據,移動和無線讓人們聯系更緊密、交互更多,產生更多的信息。有了更多的信息,在宏觀方面,有更多的樣本,使得趨勢預測更準確,在微觀方面,使得個人的信息收集得更完整,各種個性化更容易做到。ODPS是一個平臺,它只是讓數據處理變得更簡單,但怎么使用這么高效的工具則是數據分析人員的事情。前面講過,大數據意味著數據更復雜,要想得到更有價值的東西,則需要有更多的智慧,所以數據分析工作的難度和價值比以前更高。
“最重要的是要有透過問題表像抓住本質的特性,要把關注點放在最核心的問題上,要知道哪些事情不做,不要過度設計,一個成功的系統,不是因為擁有更多的feature,而是因為更實用,開發人員要能hold住。”在余波看來,一名優秀的架構師應當具備以上這些素質。他表示,工作中“度”的掌握至關重要。他見過一些失敗的案例,做架構的人想得太多,結果系統龐大而不實用,也駕馭不了,最后只得重頭再來。
“人的一生中會面臨很多選擇,大的方面,如角色、方向的改變,小的方面,如一個技術方案的選型。”對于年輕IT人,余波老師強調道——“不忘初心,方得始終”,選擇的準則是什么,是你的初心,做這個選擇還是不是你最開始出發的那個方向。碰到了困難、問題,是堅持還是放棄,要想想你的初心是否發生了變化。另外,作為一個技術人員,擁有一個開放的心態還是非常重要的,要善于學習并接納新的技術、不同的觀點。”
作為本屆中國系統架構師大會的講師之一,余波老師屆時將會以“ODPS - 開放數據處理服務介紹”為主題,與大家分享ODPS在系統架構方面的考慮和心得。
第六屆中國系統架構師大會將邀請眾多業界知名的技術大牛,堅持一線專家實踐案例分享,誠邀十多個不同行業企業交流互動,致力于打造千位工程師的技術盛宴,帶你領略各行各業的IT架構之美。歡迎大家踴躍報名參會,大會期間將有機會與大師面對面的交流。
總結
以上是生活随笔為你收集整理的人人皆可大数据!SACC教你玩转阿里ODPS的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 阿里云发布大数据产品ODPS 6小时处理
- 下一篇: 30年来我只坚持三件事