Husky数据分析——招聘信息背后的潜规则揭秘
每天新聞中都可以看到各種各樣的排行,和數(shù)不盡的好玩的結(jié)論。可是有很多時(shí)候我們看到某些數(shù)據(jù)結(jié)論時(shí),總會(huì)激發(fā)我們質(zhì)疑精神,有時(shí)是對(duì)于數(shù)據(jù)取樣的片面性的懷疑,有時(shí)也有不滿足于數(shù)據(jù)的小眾化的遺憾。恰好目前我們實(shí)驗(yàn)室正在開發(fā)下一代的更高效的husky分布式大數(shù)據(jù)計(jì)算平臺(tái),正好可以釋放數(shù)據(jù)的洪荒之力。一來可以實(shí)現(xiàn)對(duì)數(shù)據(jù)全面性和真實(shí)性的追求以及挖掘隱藏在數(shù)據(jù)背后各類關(guān)系,二來可以驗(yàn)證husky強(qiáng)大的高效快速的數(shù)據(jù)分析能力。工具在手天下我有,不多說,我們進(jìn)入正題吧!
今天想分析一下和大家都息息相關(guān)的職場(chǎng)那些事,那就從招聘信息開始吧。現(xiàn)在先介紹下幾個(gè)問題:
由上圖可以清楚地看出北上深占據(jù)了工資的前三甲并且較大幅度超過其它城市,其中北京上海的平均工資都超過8000元。從第四名杭州開始,平均工資緩慢下降,集中在6000元上下的水平。由曲線表示的招聘數(shù)量和藍(lán)色的標(biāo)注,我們可以清楚地看出每個(gè)數(shù)據(jù)的大小,可是不太容易看出其排序順序。不過下圖就清晰多了: #按工作地點(diǎn)對(duì)招聘數(shù)量排行,7000代表取招聘數(shù)量大于此數(shù)的城市比較。 show_number_base_on_what('job_location',7000,2000)
常聽說一線城市的工作多,到底多多少自己也沒有個(gè)量化的概念。上圖告訴了我們答案,北上深廣四個(gè)一線城市無疑在工作機(jī)會(huì)上大于其他城市不少,而北京無論是在招聘數(shù)量還是平均工資都排在了首位。從數(shù)量上來看,成都、鄭州、天津、杭州、南京、西安和武漢算是排在了第二梯隊(duì)。濟(jì)南到石家莊在第三梯隊(duì),其他城市就相對(duì)來說果然很少。 左上圖是最低學(xué)歷要求圖表。可以看出,學(xué)歷對(duì)工資水平具有重要影響,博士、碩士和學(xué)士的平均工資占據(jù)了前三甲,而中技排在了末位。數(shù)據(jù)告訴我們,若想工資上萬,不妨考慮拿個(gè)碩士以上的文憑。而從右上圖可知,民營(yíng)企業(yè)的招聘數(shù)量占據(jù)了大半江山,是排在第二位的股份制企業(yè)的三倍有余。而保密機(jī)構(gòu)和國(guó)家機(jī)關(guān)雖然招聘數(shù)量少,但工資領(lǐng)先于其他企事業(yè)單位。
#對(duì)于招聘數(shù)量大于8000的職位類別調(diào)用函數(shù),分析結(jié)果如下,2000是圖形寬度 show_salary_base_on_what('job_category',8000,2000)
由圖得知,在前十的高薪工作類型中,除了常見的銷售總監(jiān)、市場(chǎng)經(jīng)理和財(cái)務(wù)經(jīng)理等管理者外,互聯(lián)網(wǎng)行業(yè)的產(chǎn)品經(jīng)理和高級(jí)軟件工程師也位于前列。另外,船員水手也在其列并且薪水超萬,不過這也和船員的長(zhǎng)期漂泊和辛苦工作是分不開的。
以上都是對(duì)整體的分析,不過大多數(shù)情況下不同的人可能更關(guān)心某些相關(guān)領(lǐng)域的情況,這時(shí)可以加入一些限制條件。例如以下考慮的是作為一位老師,只想知道關(guān)于老師招聘的相關(guān)統(tǒng)計(jì)數(shù)據(jù):
#這里我們想知道不同城市的情況,故依然選'job_location'作為橫坐標(biāo);另外只想知道職位是'老師'的數(shù)據(jù)。若想知道其他數(shù)據(jù)的話,以任意其他職位取代'老師'即可。 show_salary_base_on_what('job_location',250,1000,'position','老師')意料之中,北京作為首都集中了很大一部分優(yōu)質(zhì)的教育資源,其教師招聘數(shù)量及其平均薪酬都占據(jù)首位。可以看到上圖薪水前五名中,除了北京上海兩大城市外,就是廣東省的深圳、佛山、廣州三大城市。這一方面也體現(xiàn)了北京上海和廣東珠三角地區(qū)對(duì)教育重視,較高的工資容易吸引到更優(yōu)秀的人才,這可以為老師和學(xué)生擇校提供一些參考。 #論工作經(jīng)驗(yàn)的重要性,選職位為'C++'相關(guān)的測(cè)試如下 show_number_base_on_what('job_experience',50,800,'position','C++')
如圖所示,工作經(jīng)驗(yàn)為1-3年時(shí)平均工資為9432,3-5年時(shí)增長(zhǎng)為13095,而到5-10年時(shí)則達(dá)到17368元/月。可見隨著工作經(jīng)驗(yàn)的增長(zhǎng),工資近似線性增加,所以只要好好努力,最終都會(huì)成為老司機(jī)。
#我們想知道不同城市的企業(yè)類型分布,由于篇幅關(guān)系,我們這里只展示北京和上海兩地的比較: show_number_base_on_what('company_industry',500,2000,'job_location','北京') show_number_base_on_what('company_industry',450,2000,'job_location','上海')#上海
圖上可見,互聯(lián)網(wǎng)/電子商務(wù)是北京上海兩地從業(yè)人員最多的行業(yè),基金/證券/期貨/投資相關(guān)的則排在了第二位。另外,對(duì)于北京來說,計(jì)算機(jī)軟件、教育/培訓(xùn)/院校、媒體出版/影視/文化傳播和IT服務(wù)(系統(tǒng)數(shù)據(jù)維護(hù))等方面要強(qiáng)于上海。而上海在房地產(chǎn)/建筑/建材/工程、專業(yè)服務(wù)/咨詢(財(cái)會(huì)/法律/人力資源等)和貿(mào)易/進(jìn)出口方面更加突出。
#我們想知道某些情況下工資分布在不同范圍的比例,例如,以下可以看到老師、醫(yī)生和律師在招聘中的各自工資分布的比例: show_proportion_of_salary_range_by_key('position',['老師','醫(yī)生','律師'])總體而言,三者的工資分布在 3000-6000元這一范圍的比例都是最大的,其中老師在這一區(qū)間的比例更是達(dá)到了50%。另外,在高薪領(lǐng)域 ,醫(yī)生所占比例最大,律師居中,老師較低。 #工程師的情況怎么樣呢? show_proportion_of_salary_range_by_key('position',['軟件工程師','硬件工程師','建筑工程師','設(shè)計(jì)工程師'])
與第一組不同,這組工程師的薪水主要是分布在6000-9000這個(gè)范圍,其中建筑工程師過半位于這一區(qū)間。而關(guān)于我們常談?wù)摰能浖こ處熀陀布こ處?#xff0c;在6000元以下和9000元以上兩個(gè)區(qū)域,硬件工程師的比例都要高于軟件工程師。可見軟件工程師薪水更加集中,而硬件工程師的貧富差距更加明顯。另外,在27000以上的高新領(lǐng)域,建筑工程師表現(xiàn)突出。
#不同編程語言的表現(xiàn)如何呢?可見以下圖表 show_proportion_of_salary_range_by_key('position',['C++','Java','Scala','Python','PHP'])由圖可見,Scala和Python的表現(xiàn)突出,薪水在大于12000的范圍中占有較大的比例,這可能得益于在的大數(shù)據(jù)分析領(lǐng)域這兩種語言的廣泛運(yùn)用。而Java、C++和PHP則表現(xiàn)的相對(duì)正常,主要集中在6000-9000這一范圍。
#取企業(yè)性質(zhì)分析 show_proportion_of_salary_range_by_key('company_nature',['民營(yíng)','國(guó)企','合資','國(guó)家機(jī)關(guān)'])
怎么說呢?數(shù)據(jù)告訴我們國(guó)家機(jī)關(guān)最好,民營(yíng)企業(yè)最艱難。
由于時(shí)間篇幅的關(guān)系,還有很多數(shù)不盡的有趣的結(jié)論有待開發(fā),這里就不繼續(xù)展示。以下提供這次分析工具Husky的網(wǎng)址和這次分析的數(shù)據(jù)源。歡迎大家一起研究討論!
我們的網(wǎng)站:http://www.husky-project.com/
數(shù)據(jù)鏈接: http://pan.baidu.com/s/1gfn32dt 密碼: tb14
Husky: 新世代大數(shù)據(jù)平臺(tái)
由于篇幅限制,目前僅展示了最終部分的分析結(jié)果。具體的數(shù)據(jù)抓取,數(shù)據(jù)清理,數(shù)據(jù)邏輯運(yùn)算及可視化過程暫未展示。若您有其他一些有趣的探索目標(biāo),歡迎討論,共同進(jìn)步。
總結(jié)
以上是生活随笔為你收集整理的Husky数据分析——招聘信息背后的潜规则揭秘的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: JS验证日期【闰年月大月小】
- 下一篇: 阅文集团财报解读:美梦诞生的地方,让更多