数据分析实例:企业需要什么样的数据分析人才?
導讀:企業當前需要什么樣的數據分析人才?這些人才應該具備怎樣的能力和素質?數據分析師掙多少錢?下面的分析過程正在試圖給你答案。希望本文能夠為你今后的學習和求職提供指導,也為正在學習數據分析和找工作的朋友們提供一定的參考價值。
01 項目背景
在學習數據分析的路上,少不了經常逛知乎,寫這篇文章的啟發來源于@BigCarrey 的一篇文章《數據分析師掙多少錢?“黑”了招聘網站告訴你!》,該文章給了我一些幫助,讓我了解了數據分析崗位相關的信息,但同樣也留給我一些疑問,該文章分析的數據分析師所需技能的結果絲毫沒有R的蹤影,盡管是一年前的分析,我覺得應該不可能不存在。
因此,抱著證實R語言這款工具的想法,以及希望了解當前企業對數據分析崗位的需求,開始了一次針對招聘網站的數據分析崗位招聘數據的分析與挖掘實踐,避免自己所學習的方向與企業實際需求脫軌。
此實例采用R語言作為分析工具,下面展現的是我整個分析過程。
02 目標
了解企業當前需要什么樣的數據分析人才,以及應該具備的能力和素質。
分析的結果為今后的學習和求職提供指導,也為正在學習數據分析和找工作的朋友們提供一定的參考價值。
03 問題的分解
不同地區,數據分析崗位的需求分布以及對應的薪資分布
不同經驗,數據分析崗位的需求分布以及對應的薪資分布
不同學歷,數據分析崗位的需求分布以及對應的薪資分布
不同企業規模,數據分析崗位的需求分布以及對應的薪資分布
探索數據分析崗位對應的工具型技能與對應的薪資水平
探索數據分析崗位對應非工具型能力的需求
04 數據集的定義
▲表1:數據分析崗位信息表
▲表2:數據分析崗位技能關鍵詞表
05 數據獲取
數據來源:拉勾網
數據范圍:互聯網行業、數據分析崗位
數據集:全國數據分析崗位招聘信息數據集(采集樣本量:449)
工具:爬蟲
時間:所有數據截止2018年3月12日
數據集獲取方式:請關注公眾號數說物語(ID:DataTalk_)回復【拉勾網】即可獲取下載鏈接和密碼
06 數據處理
步驟1:加載原始數據
步驟2:識別缺失值
▲圖1. aggr缺失值識別圖
幸運的是該數據集不存在缺失值,這是很少遇到的情況。
步驟3:數據清洗
步驟4:文本挖掘
文本挖掘工具:jiebaR包
說明:
在進行正式挖掘之前測試了一下jiebaR的關鍵詞(keywords)分詞器,測試的結果發現SQL,Python等詞在jiebaR詞典中的IDF值均為11.7392,但“R”這個字符無論如何(即使自定義了用戶字典,或者在idf字典中添加R的idf值)都無法被分詞器識別為關鍵詞,猜測可能是默認R的詞性標注或者算法實現方法的原因。但因為R是數據分析師的重要工具,識別不出來是不可容忍的,因此要另求出路。
測試代碼如下:
結果如下:
解決辦法:
關鍵詞算法的實現原理是TF-IDF算法,TF為詞頻,IDF為逆文檔率(詞的權重),因此TF-IDF=TF*IDF為衡量是否關鍵詞的指標,若控制IDF,則TF-IDF的值與TF值成正比關系,簡單來說TF值可以代替TF-IDF值。
由于此次分析的是數據分析師的工具和技能,因此只考慮SQL,PYTHON,R,SAS等常用且類似的詞的分析,又因為該類詞在jiebaR分詞器識別出來的IDF值均是同級別的(即使可能存在有差異也在此假設其等值),因此這部分詞匯的關鍵指標的衡量可以簡化為出現的詞頻,即TF值,這個可以通過jiebaR的默認分詞器(不是關鍵詞分詞器)來處理即可,最終解決R關鍵詞識別的問題。
文本挖掘思路:
1、工具型技能的關鍵詞:采用默認分詞器的詞頻TF值
2、非工具型能力或素質的關鍵詞:采用關鍵詞分詞器的TF-IDF值
代碼如下:
到此數據處理的過程基本完成,處理后干凈的數據如下:
07 分析的結果
數據分析代碼:
具體代碼可以前往該鏈接查看整個過程:RPubs - 分析實例:企業需要什么樣的數據分析人才(http://rpubs.com/Joffy_Z/DA_analysis)
描述統計信息:
問題一:不同地區,數據分析崗位的需求分布以及對應的薪資分布
總的來說數據分析師的平均薪資比較好,工作1年以上拿到10k月薪的機會還是比較大
在需求量前5的城市中,北京和深圳的平均薪資是最高的,廣州的平均薪資最低
需求量在第二梯度的城市中,長沙和成都的平均薪資較低,但武漢、廈門、鄭州也有不錯的薪資表現,二線城市也是一個可以考慮的選擇
需要注意的是蘇州的需求量相對于其他城市是非常低的,但其平均薪酬接近深圳,是可以值得關注的城市
問題二:不同經驗,數據分析崗位的需求分布以及對應的薪資分布
跟預想的差不多,薪資隨工作經驗的增加而有一個穩定的增長
但企業對最大的數據求集中在3-5年經驗的數據分析師,這對于轉型進入數據分析的人來說不是一個好的消息
轉行需要更有充足的準備,且要不斷尋找能夠積累經驗的項目來做。
問題三:不同學歷,數據分析崗位的需求分布以及對應的薪資分布
企業似乎更加注重分析師的實踐經驗,而不是學歷的高低,但至少需要具備本科以上的學歷,數據分析還是需要具備一定的理論基礎
在薪資方面,相對與本科來說,碩士及以上學歷在獲取高薪方面并沒有太大的優勢,能夠解決實際問題才是數據分析師拿高薪的關鍵,而非深奧的理論知識
大專學歷的分析師還是有機會,重點在于增加自己的工作經驗才是本質上與其他分析師拉開距離的關鍵,當然,理論知識也不能落下
問題四:不同企業規模,數據分析崗位的需求分布以及對應的薪資分布
150人規模以下的企業需求量較少,但給出的薪資較高(甚至有異常的高薪),該類企業可能處于快速融資且高速的發展階段,需要有豐富經驗的數據分析專家來建設整個數據體系
50~150人規模的企業適合有足夠經驗的分析師且想要創業的人,對自己職位以及薪酬均會有明顯的提升,但最大的風險就是該類企業容易失敗,特別在互聯網行業,因此更不建議作為轉型新人的首選
對于轉型的新人,盡可能往大企業走,越大規模的企業,整個體系越成熟,因此可以在150人以上的規模從上往下選擇自己合適的企業才是比較科學的方式,且需求量巨大
問題五:數據分析崗位對應的工具型技能與對應的薪資水平
SQL和Excel幾乎是每個數據分析師要掌握的基礎技能,大多數企業都有自己的數據庫體系或者系統平臺,因此企業工作人員讀取和處理數據還是以數據庫和Excel為主
R,Python是兩個最熱門的開源數據分析工具,且當前R語言在需求仍然不低,因此核心掌握兩門語言的其中一門都會讓數據分析師具備有力的競爭優勢
除此之外工作經驗較低的數據分析師還需要掌握一些BI可視化分析工具
工作經驗較高的數據分析師需要掌握主流的關系型數據庫系統和NoSQL,以及Hadoop,Hive,Spark等大數據工具
掌握Hadoop,Hive,Spark,R,Python等技能是獲取高薪必備條件
問題六:數據分析崗位對應非工具型能力的需求
聲明:此處數據涉及到崗位細分和難以衡量的原因,并沒有進行深入分析,詞云本身不具備太高的數據分析價值,僅作為可視化關鍵詞的分布情況的工具;閱讀者需要根據自身崗位以及所處的工作定位查看關鍵詞的情況,這里的大小表示關鍵詞出現的頻次。
通過資料的收集,了解到數據分析崗位主要有偏工程方向和偏業務方向兩個類型,透過詞云可以大概了解到如下信息:
偏工程方向的數據分析師對“數據挖掘”、“數據建模”、“模型分析”等能力要求較高
偏業務方向的數據分析師對“業務分析”、“運營分析”、“產品分析”、“用戶分析”等能力要求較高
兩個類型共同需要“邏輯思維”、“溝通”、“分析報告”、“統計分析”、“團隊合作”等關鍵能力
08 總結
從地域來看,北京、深圳、上海、杭州、廣州應該是數據分析師的首選城市,蘇州是一個值得關注的城市,外部數據了解到蘇州的GDP僅次于一線城市,此處結果平均薪資接近北京和深圳,但需求量較低,想要蘇州發展的朋友可以關注其動態。
從總體需求來看,企業更加需要具備多年工作經驗,且動手能力強、解決實際問題的分析人才,隨著工作經驗的增加,其對應的薪資也有可觀的增長。
從大環境看,外部資料了解到,自助式分析工具的逐步完善與人工智能技術的突破,也可能使得企業現有業務人員能夠上手基礎的分析工作,導致企業對經驗較低的分析師需求減少。
從企業規模看,150人以上規模的企業更加適合新人進去鍛煉,一方面企業已經完成了基本的數據體系架構,且越大的企業數據量級越大,另一方面,企業需要逐步培養強大的數據分析團隊來支撐業務的增長。
從分析師個人的角度,則需要更加關注自身成功項目經驗的積累,這是升職加薪的必備條件,且需要思考未來自身的發展路徑,提前做好準備,相對于業務方向,大數據工程師方向會有更可觀的薪資。
從能力的角度,數據分析師需要掌握SQL,Excel,R,Python四個必備的工具(R和Python可以選擇其一為主要工具),新人可以注重BI,PPT等office工具的技能,如果是大數據挖掘,越往后則需要更加關注hadoop,Hive,Spark等工具;
數據分析師個人還需要注重邏輯思維、表達溝通、分析報告等關鍵能力
09 建議
對于想要轉型的數據分析師新人,轉型之前盡可能做好項目經驗的積累,盡量做到跨崗不跨行,在自己熟悉的領域學習數據分析
企業比較看重經驗和動手能力,面試的時候盡可能展示你的作品或者案例,如果當前沒有,則需要在日常學習,練習,積累
可以掌握一些可視化工具和數據可視化的思維,熟練掌握報告和表達的技巧,數據分析的工具多樣,方式多樣,只有能夠正確解讀數據且讓對方看懂聽懂才是有價值的
10 不足
本次分析并沒有按照分析報告的方式來呈現,文章中以個人的整個分析過程來撰寫,希望能夠與各位朋友一起交流學習,如果你不同意我文章中的觀點,歡迎指正交流。
文章中我附上了我的數據集以及分析的代碼鏈接,有興趣的朋友可以重復我的過程,甚至做更加深入有趣的分析,如果有新的發現和觀點,希望也能讓我知道,向你們學習。
11 局限
數據僅采集到449份樣本,數據量相對少一點,因此數據分析的結果需要大家用懷疑的心態來看待,且僅局限在互聯網行業,相對于其他行業,本文章的分析結果只能作為一個參考。
感謝您的閱讀,您的建議和留言會讓我做得更好。
作者:喬飛(Joffy Zhong):咨詢顧問 寫作愛好者 數據分析 互聯網創業者 R語言中文社區專欄作者
來源:數說物語(ID:DataTalk_)
推薦閱讀
日本老爺爺堅持17年用Excel作畫,我可能用了假的Excel···
看完此文再不懂區塊鏈算我輸:手把手教你用Python從零開始創建區塊鏈
為什么要學數學?因為這是一場戰略性的投資
180頁PPT,講解人工智能技術與產業發展
Q:?數據分析師所需的技能,你get到了嗎?
歡迎留言與大家分享
覺得不錯,請把這篇文章分享給你的朋友
轉載 / 投稿請聯系:baiyu@hzbook.com
更多精彩文章,請在公眾號后臺點擊“歷史文章”查看
總結
以上是生活随笔為你收集整理的数据分析实例:企业需要什么样的数据分析人才?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: STM32之RTC例程
- 下一篇: Simulink之交流调压电路