04_机器学习概述,什么是机器学习,应用场景,数据来源与类型,网上可用的数据集、常用数据集数据的结构组成、特征工程是什么、意义、特征抽取、sklearn特征抽取API、文本特征抽取(学习笔记)
機器學習概述
人工智能、機器學習、深度學習之間的關系
機器學習框架
Pytorch
Caffe2
theano
Chainer
Scikit-learn
語言支持
機器學習書籍
《面向機器智能 TensorFlow實踐》
《MACHINE LEARNING 機器學習》,周志華
《TensorFlow技術解析與實踐》
什么是機器學習
機器學習是從數據中自動分析獲得規律(模型),并利用規律對未知數據進行預測。
應用案例
案例1
案例2
為什么需要機器學習
機器學習應用場景
1、自然語言處理
2、無人駕駛
3、計算機視覺
4、推薦系統
數據來源與類型
1、數據來源
- 企業日益積累的大量數據(互聯網公司更為顯著)
- 政府掌握的各種數據
- 科研機構的實驗數據
2、數據類型
- 離散型數據:由記錄不同類別個體的數目所得到的數據,又稱計數數據,所有這些數據全部都是整數,而且不能再也不能進一步提高他們的精確度。
- 連續型數據:變量可以在某個范圍內取任一數,即變量的取值可以是連續的,如,長度、時間、質量值等,這類整數通常是非整數,含有小數部分。
注:只要記住一點,離散型是區間內不可分,連續型是區間內可分
數據類型的不用應用
數據的類型將是機器學習模型不同問題不同處理的依據?
3、可用的數據集
常用數據集數據的結構組成
結構:特征值 + 目標值
例如:
注:有些數據集可以沒有目標值
數據的特征工程
1、特征工程是什么
特征工程是將原始數據轉換為更好地代表預測模型的潛在問題的特征的過程,從而提高了對未知數據的模型準確性
案例:
將下面的文本轉換為數字類型的過程。
再如,將一個numpy的數組按照一定規則轉成另外一個
2、特征工程的意義
直接影響模型的預測結果
3、scikit-learn庫介紹
- Python語言的機器學習工具
- Scikit-learn包括許多知名的機器學習算法的實現。
- Scikit-learn文檔完善,容易上手,豐富的API,使其在學術界頗受歡迎。
安裝參考:https://blog.csdn.net/tototuzuoquan/article/details/105290465
4、數據的特征抽取
閱讀:https://blog.csdn.net/tototuzuoquan/article/details/105424709
5、數值的特征處理
閱讀:https://blog.csdn.net/tototuzuoquan/article/details/105440244
6、機器學習模型是什么
定義:通過一種映射關系將輸入值到輸出值
7、機器學習算法分類
機器學習開發流程
監督學習
1、分類 : k-近鄰算法、貝葉斯分類、決策樹與隨機森林、邏輯回歸、神經網絡
2、回歸:線性回歸、嶺回歸
3、標注:隱馬爾可夫模型(不做要求)
無監督學習
1、聚類:k-means
8、監督學習
監督學習 (英語:Supervised learning),可以由輸入數據中學到或建立一個模型,并依此模式推測新的結果。輸入數據是由
輸入特征值和目標值所組成。函數的輸出可以是一個連續的值(稱為回歸),或是輸出是有限個離散值(稱作分類)。
無監督學習(英語:Supervised learning),可以由輸入數據中學到或建立一個模型,并依此模式推測新的結果。輸入數據是
由輸入特征值所組成。
分類問題
概念:分類是監督學習的一個核心問題,在監督學習中,當輸出變量取有限個離散值時,預測問題變成為分類問題。最基礎的便是二分類問題,即判斷是非,從兩個類別中選擇一個作為預測結果;
分類問題的應用
回歸問題:
概念:回歸是監督學習的另一個重要問題。回歸用于預測輸入變量和輸出變量之間的關系,輸出是連續型的值。
回歸在多領域也有廣泛的應用1、房價預測,根據某地歷史房價數據,進行一個預測2、金融信息,每日股票走向 … 與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的04_机器学习概述,什么是机器学习,应用场景,数据来源与类型,网上可用的数据集、常用数据集数据的结构组成、特征工程是什么、意义、特征抽取、sklearn特征抽取API、文本特征抽取(学习笔记)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 蔚来et5座椅通风多少钱?
- 下一篇: 05_数据的特征处理,归一化,标准化、缺