ML之LGBMRegressor(Competition):2018年全国大学生计算机技能应用大赛《住房月租金预测大数据赛》——设计思路以及核心代码—191017再次更新
ML之LGBMRegressor(Competition):2018年全國大學生計算機技能應用大賽《住房月租金預測大數據賽》——設計思路以及核心代碼—191017再次更新
?
目錄
競賽相關信息
數據集處理前后
輸出結果
設計思路
核心代碼
相關文章
?
?
?
競賽相關信息
競賽背景:
? ? ? ? 為貫徹關于“推動互聯網、大數據、人工智能和實體經濟深度融合”以及“善于運用互聯網技術和信息化手段開展工作”等講話精神,引導高校在校生學習掌握計算機與互聯網知識,提高計算機的技能應用,中國軟件行業協會培訓中心將舉辦全國大學生計算機技能應用大賽。大賽旨在增強廣大在校大學生的IT應用技能,對于進一步落實學校培養應用型人才的目標要求,培育創新創業人才、促進產學研相結合有著重要意義。
? ? ? ? 當今社會,房屋租金由裝修情況、位置地段、戶型格局、交通便利程度、市場供需量等多方面因素綜合決定,對于租房這個相對傳統的行業來說,信息嚴重不對稱一直存在。一方面,房東不了解租房的市場真實價格,只能忍痛空置高租金的房屋;另一方面,租客也找不到滿足自己需求高性價比房屋,這造成了租房資源的極大浪費。
? ? ? ? 本次計算機技能大賽中的大數據賽題將基于租房市場的痛點,提供脫敏處理后的真實租房市場數據。選手需要利用有月租金標簽的歷史數據建立模型,實現基于房屋基本信息的住房月租金預測,為該城市租房市場提供客觀衡量標準。
任務與數據
? ? ? ? ? 數據為某地4個月的房屋租賃價格以及房屋的基本信息,我們對數據做了脫敏處理。 選手需要利用訓練集中的房屋信息和月租金訓練模型,利用測試集中的房屋信息對測試集數據中的房屋的月租金進行預測。
? ? ? ? ? 數據分為兩組,分別是訓練集和測試集。 訓練集為前3個月采集的數據,共196539條。 測試集為第4個月采集的數據,相對于訓練集,增加了“id”字段,為房屋的唯一id,且無“月租金”字段,其它字段與訓練集相同,共56279條。 訓練集所含字段如下:
2018年全國大學生計算機技能應用大賽
住房月租金預測大數據賽(付費競賽)
?
?
數據集處理前后
1、訓練集、測試集
2、FE處理后的訓練集
?
輸出結果
1、測試集經過模型訓練后輸出的結果
設計思路
1、處理的【小區房屋出租數量】列為空值的思路
2、處理數據
2、總思路
?
?
?
核心代碼
代碼運行輸出
[LightGBM] [Warning] feature_fraction is set=0.6, colsample_bytree=1.0 will be ignored. Current value: feature_fraction=0.6 [LightGBM] [Warning] min_data_in_leaf is set=18, min_child_samples=20 will be ignored. Current value: min_data_in_leaf=18 [LightGBM] [Warning] min_sum_hessian_in_leaf is set=0.001, min_child_weight=0.001 will be ignored. Current value: min_sum_hessian_in_leaf=0.001 [LightGBM] [Warning] bagging_fraction is set=0.7, subsample=1.0 will be ignored. Current value: bagging_fraction=0.7?
相關文章
Competition:2018年全國大學生計算機技能應用大賽《住房月租金預測大數據賽》——設計思路以及核心代碼
?
總結
以上是生活随笔為你收集整理的ML之LGBMRegressor(Competition):2018年全国大学生计算机技能应用大赛《住房月租金预测大数据赛》——设计思路以及核心代码—191017再次更新的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: AI公开课:19.04.10颜水成—36
- 下一篇: Interview:算法岗位面试—10.