机器学习基础:分类vs回归
經常看到這樣的問題:“如何計算回歸問題的準確度?”像這樣的問題反映了沒有真正理解分類和回歸之間的區別,以及測量的準確度是什么。
這是分類和回歸問題之間的一個重要區別。從根本上說,分類就是預測一個標簽,而回歸則是預測一個數量。
在本文中,你將發現分類和回歸之間的區別。
看完文章后,你將會知道:
- 預測模型是關于從輸入到輸出學習映射函數的問題,稱為函數逼近。
 - 分類是預測離散類標簽輸出的問題。
 -  回歸是預測連續數量輸出的問題。
 
讓我們開始吧。
文章概述
本文分為5部分,它們是:
函數逼近
預測建模是用歷史數據來建立一個模型來預測新數據,針對我們沒有答案的問題。
有關預測建模的更多信息,請參見:
-  簡要介紹預測建模
 
預測建模可以描述為從輸入變量(x)到輸出變量(y)逼近映射函數(f)的數學問題。這稱為函數逼近問題。
建模算法的工作是在我們可以提供可用的時間和資源的情況下,找到最好的映射函數。
有關應用機器學習中的逼近函數的更多信息,請參見:
-  機器學習算法如何工作
 
一般來說,我們可以把所有函數逼近任務劃分為分類任務和回歸任務。
分類預測模型
分類預測建模是將映射函數(f)從輸入變量(x)逼近到離散輸出變量(y)的任務。
輸出變量通常稱為標簽或類別。映射函數預測給定觀測值的類或類別。
例如,文本電子郵件可以分為兩類:“垃圾郵件”和“非垃圾郵件”。
- 分類問題要求將實例分為兩個或多個類中的一個。
 - 分類可以有實值或離散的輸入變量。
 - 兩類問題通常被稱為二類或二元分類問題。
 - 多于兩個類別的問題通常被稱為多類別分類問題。
 -  一個例子被指派多個類的問題被稱為多標簽分類問題。
 
分類模型通常將連續值預測為屬于每個輸出類別的給定示例的概率。 概率可以被解釋為屬于每個類別的給定例子的可能性或置信度。 可以通過選擇具有最高概率的類別標簽將預測概率轉換為類別值。
例如,特定的文本電子郵件可能被指定為“垃圾郵件”的概率為0.1,“非垃圾郵件”的概率為0.9。 通過選擇“非垃圾郵件”標簽,我們可以將這些概率轉換為類標簽,因為它具有最高的預測可能性。
評估分類預測模型的技巧有很多種方法,但最常見的方法是計算分類準確度。
分類準確率是所有預測中正確分類的百分比。
例如,如果一個分類預測模型做了5個預測,其中3個是正確的,2個是不正確的,那么基于這些預測的模型的分類準確性將是:
accuracy = correct predictions / total predictions * 100accuracy = 3 / 5 * 100accuracy = 60%能夠學習分類預測模型的算法被稱為分類算法。
回歸預測建模
回歸預測建模是將輸入變量(X)映射到連續輸出變量(y)的映射函數(f)的任務。
連續輸出變量是一個實數值,例如整數或浮點值。 這些往往是數量,如金額和大小。
例如,一所房子可能會以特定的美元價值出售,可能在$ 100,000到$ 200,000的范圍內。
- 回歸問題需要預測數量。
 - 回歸可以具有實值或離散的輸入變量。
 - 多輸入變量的問題通常稱為多元回歸問題。
 -  輸入變量按時間排序的回歸問題稱為時間序列預測問題。
 
由于回歸預測模型預測一個數量,所以該模型的技巧必須作為這些預測中的一個誤差來報告。
估計回歸預測模型的技巧有許多方法,但最常見的可能是計算均方根誤差,縮寫為首字母縮略詞是RMSE。
例如,如果一個回歸預測模型做了2個預測,其中1.5的期望值是1.0,另一個是3.3,期望值是3.0,那么RMSE是:
RMSE = sqrt(average(error^2))RMSE = sqrt(((1.0 - 1.5)^2 + (3.0 - 3.3)^2) / 2)RMSE = sqrt((0.25 + 0.09) / 2)RMSE = sqrt(0.17)RMSE = 0.412RMSE的一個優點是錯誤分數的單位與預測值的單位相同。
能夠學習回歸預測模型的算法被稱為回歸算法。
一些算法的名稱中包含“回歸”這個詞,如線性回歸和邏輯回歸,因為線性回歸是一種回歸算法,而邏輯回歸是一種分類算法,這令人感到困惑。
分類與回歸
分類預測建模問題不同于回歸預測建模問題。
- 分類是預測離散類標簽的任務。
 -  回歸是預測連續數量的任務。
 
分類和回歸算法之間有一些重疊,例如:
- 分類算法可以預測連續值,但是連續值是以類標簽的概率的形式。
 -  回歸算法可以預測離散值,但離散值以整數形式表示。
 
一些算法可用于分類和回歸的小修改,例如決策樹和人工神經網絡。有些算法不能或不能很容易地用于這兩種問題類型,例如用于回歸預測建模的線性回歸和用于分類預測建模的邏輯回歸。
重要的是,我們評估分類和回歸預測的方法各不相同,也不重疊:
- 分類預測可以使用準確性進行評估,而回歸預測則不能。
 -  回歸預測可以使用均方根誤差進行評估,而分類預測則不能。
 
分類和回歸問題之間的轉換
在某些情況下,將回歸問題轉換為分類問題是可能的。例如,要預測的數量可以轉換成離散的量。
例如,連續0至100美元之間的金額可以轉換成2個量:
- 第0類:0至49美元
 -  第1類:50至100美元
 
這通常被稱為離散化,產生的輸出變量是一種分類,其中標簽有一個有序的關系(稱為序數)。
在某些情況下,分類問題可以轉化為回歸問題。 例如,標簽可以被轉換成連續的范圍。
有些算法通過預測每一個類的概率,從而依次縮放到特定的范圍:
quantity = min + probability * range另外,可以將類值排序并映射到連續范圍:
- 0到49美元為第1類
 - 50到100美元為第二類
 
如果分類問題中的類別標簽不具有自然的序數關系,則從分類到回歸的轉換可能會導致令人驚訝或糟糕的性能,因為該模型可能會從輸入到連續輸出范圍學習錯誤或不存在的映射。
進一步的閱讀
如果你想深入了解,本節將提供更多有關該主題的資源。
- 簡要介紹預測建模
 -  機器學習算法如何工作
 
總結
在本教程中,你了解了分類和回歸問題之間的區別。
具體來說,你了解到:
- 預測建模是關于從輸入到輸出學習映射函數的問題,稱為函數逼近。
 - 分類是預測離散類標簽輸出的問題。
 - 回歸是預測連續數量輸出的問題。
 
Dr. Jason Brownlee?是一名機器學習從業者,學術研究人員,致力于幫助開發人員從入門到精通機器學習。
本文由北郵@愛可可-愛生活老師推薦,阿里云云棲社區組織翻譯。
文章原標題《Difference Between Classification and Regression in Machine Learning》
作者:Dr.Jason Brownlee?譯者:董昭男 審核:海棠
文章為簡譯,更為詳細內容,請查看原文
總結
以上是生活随笔為你收集整理的机器学习基础:分类vs回归的全部內容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: 关于Swift中Struct,Class
 - 下一篇: 配置路由器图文教程-配置路由器图文教程图