2018.01.21.一周机器学习周记
時間:2018.01.21.一周
主要內容
1.整理前期關于決策樹的一個小型實踐項目文檔(實踐進行中)
2.搭建TensorFlow環境(進行中)
3.拓展:實踐Python的自動化模塊pyautogui模塊
4.后期承得前會長吳師兄的參考文檔,開始對騰訊算法大賽進行項目研究
內容摘要及相關概況
決策樹實踐項目
詳見項目文檔
搭建TensorFlow環境
1.通過pip安裝TensorFlow基本包
2.在cmd處import tensorflow
3.根據提示,在官網下載對應的CUDA版本,下載完成后進行安裝(安裝之前先卸載本地的舊版本)
4.下載cuDNN對應的壓縮包
pyautogui模塊
本周實踐了一系列pyautogui模塊的函數,這里主要摘要一個實踐:
功能
實時給出鼠標當前位置的x、y坐標,也給出這個像素的RGB顏色
代碼
騰訊算法大賽
參考于前會長吳師兄的文檔
本周進度
由賽題屬于廣告學范疇,一開始通過對?轉化率預估此篇文章的閱讀,對相關概念有所理解
隨后,閱讀理解了?騰訊算法大賽以及 FAQ 部分
賽題要求
官方提供17-30天移動 APP 的廣告、用戶的轉化情況,及相關上下文, 根據這些數據預測第31天指定用戶和對應廣告的轉化率.
評估方式 (賽題中提供的計算公式)
通過Logarithmic Loss評估(越小越好),公式如下:
其中,
N是測試樣本總數,
yi是二值變量,取值0或1,表示第i個樣本的label,
pi為模型預測第i個樣本 label為1的概率。
示例代碼(Python語言實現):
項目目的
主要在于剖析和學習大賽中取得 第64 名大牛的分享, 對其代碼進行理解和分析, 主要著重點在于特征工程。
機器學習的主要流程
數據分析和清洗方法
關于數據分析,閱讀FAQ可知:
App 的激活定義為用戶下載后啟動了該App,即發生激活行為。從用戶點擊廣告到廣告系統得知用戶激活了App(如果有),通常會有較長的時間間隔,主要由以下兩方面原因導致:
1) 用戶可能在下載之后過了很久才啟動App;
2) 用戶啟動App的行為需要廣告主上報回傳給廣告系統,通常會有一定的延時。
這里回流時間表示了廣告主把App激活數據上報給廣告系統的時間,回流時間超過5天的數據會被系統忽略。
值得注意的是,本次競賽的訓練數據提供的截止第31天0點的廣告日志,因此,對于最后幾天的訓練數據,某些label=0并不夠準確,可能廣告系統會在第31天之后得知label實際上為1。
即
某些app和用戶的記錄比較少
最后幾天有部分數據不準確
對于這個問題, 這里采用了比較暴力的方法, 將最后幾天這些可能會出現問題的數據刪除
總結
以上是生活随笔為你收集整理的2018.01.21.一周机器学习周记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 0121 - 开始学习 EOS 编程
- 下一篇: 怎样隐藏“滚动条”?