心路历程:「双非」研究生数据分析春招
大家好,我是寶器!
今天邀請了一位小姐姐舒夢做了春招DA崗位面經分享,文章經授權首發于公眾號「數據管道」,以下為作者自述全文,希望對正在求職數據分析或準備跨行數據分析的朋友有些許幫助。
01
個人情況
基本情況
雙非渣碩,跨專業考的計算機,實驗室天坑。選數據分析(偏業務)一方面是個人興趣,另一方面是被開發和算法勸退……因為我實在是太菜了,代碼能力等于0,更別提算法。
能力水平
有過數據分析的相關實習,某電商和某運營商。懂一點點大數據的東西,有一定業務知識,會一些分析工具,完全不懂算法(捂臉……所以走的基本是業務方向的數據分析,經歷參考度對偏技術的非常非常有限)
春招情況
各種原因只投了5家,如下:
公司 | ? ? ? ? ? ? ? ?進度 |
虎牙 | 簡歷掛 |
酷狗 | 簡歷掛 |
網易互娛 | 筆試掛 |
京東 | 初試掛 |
Bigo | Offer |
02
面經整理
Bigo
(數據分析實習生)
一面
1、簡單介紹自己
2、hive的問題:
union和union all有何不同?
使用union要滿足什么條件?
有兩個表,join的時候哪個表放在前面更好【小表,讓小表先進內存,可以提高效率】
數據傾斜解釋一下原理和解決方案【簡單解釋mapreduce原理,解決方案按參數設置和改寫sql代碼兩方面講,其中詳細舉例了我在實習時候遇到的問題】
3、excel很熟?講一下vlookup怎么用?
4、python爬蟲是什么情況,用到了什么庫【說了爬蟲使用的背景,以及這個小爬蟲相應的技術】
衍生問題:有做過文本分析嗎?貌似想問L1L2正則化的東西。【沒有,爬下來的數據相當規整。至于正則化,我記得是機器學習領域的,沒學過不好意思……】
5、python pandas相關問題,dataframe,怎么看數據的大致情況分布等,如最大最小平均四分位置
6、購物車關聯分析怎么回事【說了當時的思路,SQL打標簽,下載數據Python處理。關聯分析算法是Apriori,但抱歉關聯分析代碼不是我實現……我搬人家的……在前面加了數據處理的代碼】
7、實習有做過專題分析嗎【說大的完整專題分析暫時沒有,都是比較細分的點。然后有提及到主要的分析思路,電商業務a. 人貨場,b. 轉化漏斗】
又看筆試試卷,你沒學過概率和機器學習嗎,空了這么多?概率是這題公式對,但是算錯了。【尷尬……承認不足,的確是沒學過算法和沒復習好概率】
8、有做過abtest嗎
9、為什么要跨專業
10、以后發展方向是什么
11、對數據分析的理解【主要提到兩個點:數據質量,洞察業務】
12、有什么想問我的嗎?【a. 職位屬于哪個部門,部門的架構是怎么樣的?b. 工作必須用到機器學習方法嗎?想了解一下機器學習的落地。c. 業務部門有非常多提數需求,請問如何提高提數效率?】
二面
1、簡單介紹自己(面試官:你說話好快啊)
2、uv和pv解釋?
3、實習做了什么,有做過專題分析嗎
4、購物籃關聯分析
5、知道怎么用hive抽樣嗎?比如我想10000條數據的1%【講了兩種方法,order by rand() limit 100,或者用hive的抽樣函數tablesample,按分桶和按百分比都有,針對這個可以用百分比方法。】
6、介紹一下窗口函數,哪種場景用到(筆試的SQL題我寫了兩種方法,不支持/支持窗口函數的方法)【說到常用的row_number() over()和dense_rank(),也知道sum over()那些但很少用。舉了一個實習時提取品類新客的例子,解釋了品類新客是什么】
7、為什么自己要搭hive【認為雖然意向是業務方向,但是由于有非常多的業務需求需要提數,如何寫出好的SQL和了解Hive原理使得效率更高非常必要。實習時也有些問題沒有解決,想再另外看書學習】
8、數據分析報告流程?是要怎么出溝通好需求后就開始提數嗎?【先溝通好需求,然后拆分需求。在做數據的時候,首先了解數據質量問題,確認數據口徑,然后是sql的邏輯,也要知道數據庫的坑(舉了之前實習中一個例子)。過程中又提到做一次用戶畫像的統計數據質量造成極大困擾
9、(接上了我的回答)如果給到你一份數據,發現很多異常值如何處理?
10、覺得兩段實習哪段對自己提升更大
11、還面試了哪些公司
12、有什么要問我的嗎
三面
問到自閉,非常懷疑人生……
1、簡單介紹自己
2、開問概率統計
????x^x如何求導
????方差如何計算
????提示E(X),方差公式如何寫
3、筆試概率和機器學習空了很多啊,是沒學過嗎【回答同上,哎】
4、詳細問簡歷上python爬蟲【介紹用到的庫和思路等,以及具體的背景】
5、實習期間,做過業務分析嗎,有沒有做過什么發現能驅動業務的【我說了一個沒寫在簡歷上的分析,解釋了業務背景,和大致的結果】
6、實習期間,看指標覺得什么對用戶影響大【我覺得我答偏了,都說到品類對客單價的影響了……
7、做過abtest嗎?【沒有,解釋實習所在部門對接的業務,不涉及abtest。另外說了對abtest的理解】
8、有什么想問嗎?【數據分析師的發展路徑】
京東
(數據分析工程師)
沒法現場面,申請了遠程。電話面試20min+,已掛。面經沒及時整理,不全。
一面
1、簡單介紹自己
2、問幾個Hive的問題
(1) 簡要解釋MR
(2) 數據傾斜的發生原因
(3) Hive文件類型及其不同點,平時用的哪種文件
(4) Hive的常用參數
3、學過算法嗎?(得到否定的回答后)什么?學計算機的沒學過算法?(++尷尬)
4、估算京東每日訂單量【轉化漏斗】
5、職業規劃
6、有什么想問我的嗎【a. 所在部門和對接業務,b. 對我面試的評價】
歡聚時代
(數據分析實習生,日常實習非暑期)
加一個日常實習的面經,感覺有點借鑒意義。面試官是產品經理。由于是日常實習流程快,一面主管+二面HR,已通過。
1、你在某電商實習做了什么
2、你打算畢業做什么
3、ctr、cvr解釋
4、次日留存、7日留存解釋
5、埋點知道嗎?解釋一下
6、(拿出手機打開淘寶)如果你要給淘寶設計埋點,記錄看了某個banner的用戶,怎么做?【解釋以前實習不做產品分析,沒做過埋點設計。也講了自己的理解,對banner編號,記錄用戶號,看過的banner和順序,以及每個banner的曝光、停留時間、是否點擊】
7、如果某天的某電商app的dau下降了很多,你怎么分析?【這題答得不好,大概是講了分地區、分人群去看,以及考慮網絡問題???】
8、如果某天某電商廣州銷售量下降了很多,你怎么分析?【首先確定數據傳輸和存儲是否有問題,然后看下降的量級,環比同比看下降是否突發還是持續。可以從品類、人群(會員)、流量等方面細看,也要看下轉化】
9、寫個sql:有一個表,字段有bannerid、uid、城市,統計廣州和珠海bannerid為2的用戶數
10、降序怎么寫,隨機抽取數據怎么寫
11、左連接和右連接?
12、某電商什么時候的dau最高?除了活動日,平常日呢?
13、有什么想問我的?【a. 做這個工作的話,是不是要補充一些產品知識;b. 按照我的面試的情況,請問我還有什么地方需要努力和提高】
總結
春招讓我深刻地感受到自己全方位的菜……每次筆試被機器學習數據挖掘算法和概率統計虐成沫,基本每次面試也被質疑為什么沒學過算法……
(真的不是每個學計算機的都搞AI,身處天坑實驗室一聲嘆息……但這事還是自己的問題。)真的要好好補上算法和復習概率統計啊,留下了沒技術的眼淚……
然后是數據分析偏業務方向實習很重要,個人經歷每次面試必問在某電商的實習,基本也問得很深。我對業務的了解和一些工具的學習如Hive基本從實習得來,再另外看書深化。
最后,數據分析這崗位真的雜,(從我非常有限的經歷)感受到無法預測會筆試考什么,面試問什么……目前看來筆試一般涵蓋概率統計、機器學習和數據挖掘算法、SQL編程,另外業務場景題、Linux甚至計算機網絡等都有可能出現……
面試的話則業務和技術都要準備好,因為無法預測會遇上什么背景的面試官,只能從問題風格推測他/她是偏算法還是偏業務分析的。
全文完,撒花~~感謝看到這里的大佬!歡迎交流!(再次厚臉皮狀)
寶器說:
確實如這位小姐姐所說,數據分析是一個定義相對寬泛的崗位,每一家的技能要求可能不大相同,但是基本的SQL、Hive等是需要熟練掌握的。
一句常談的話:”張口閉口數據科學,你竟然連SQL都不會“,做好每一次的基礎工作,千萬不能眼高手低,見一張以前發過的趣圖。
備注:公眾號菜單包含了整理了一本AI小抄,非常適合在通勤路上用學習。
往期精彩回顧2019年公眾號文章精選適合初學者入門人工智能的路線及資料下載機器學習在線手冊深度學習在線手冊AI基礎下載(第一部分)備注:加入本站微信群或者qq群,請回復“加群”加入知識星球(4500+用戶,ID:92416895),請回復“知識星球”喜歡文章,點個在看
總結
以上是生活随笔為你收集整理的心路历程:「双非」研究生数据分析春招的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 原文翻译:深度学习测试题(L1 W3 测
- 下一篇: 超级菜鸟如何入门数据分析?