當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习基础：分类vs回归

發布時間：2023/12/31 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习基础：分类vs回归小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

經常看到這樣的問題：“如何計算回歸問題的準確度？”像這樣的問題反映了沒有真正理解分類和回歸之間的區別，以及測量的準確度是什么。

這是分類和回歸問題之間的一個重要區別。從根本上說，分類就是預測一個標簽，而回歸則是預測一個數量。

在本文中，你將發現分類和回歸之間的區別。

看完文章后，你將會知道：

預測模型是關于從輸入到輸出學習映射函數的問題，稱為函數逼近。
分類是預測離散類標簽輸出的問題。
回歸是預測連續數量輸出的問題。

讓我們開始吧。

文章概述

本文分為5部分，它們是：

函數逼近

分類

回歸

分類與回歸

分類與回歸問題之間的轉換

函數逼近

預測建模是用歷史數據來建立一個模型來預測新數據，針對我們沒有答案的問題。

有關預測建模的更多信息，請參見：

簡要介紹預測建模

預測建模可以描述為從輸入變量（x）到輸出變量（y）逼近映射函數（f）的數學問題。這稱為函數逼近問題。

建模算法的工作是在我們可以提供可用的時間和資源的情況下，找到最好的映射函數。

有關應用機器學習中的逼近函數的更多信息，請參見：

機器學習算法如何工作

一般來說，我們可以把所有函數逼近任務劃分為分類任務和回歸任務。

分類預測模型

分類預測建模是將映射函數（f）從輸入變量（x）逼近到離散輸出變量（y）的任務。

輸出變量通常稱為標簽或類別。映射函數預測給定觀測值的類或類別。

例如，文本電子郵件可以分為兩類：“垃圾郵件”和“非垃圾郵件”。

分類問題要求將實例分為兩個或多個類中的一個。
分類可以有實值或離散的輸入變量。
兩類問題通常被稱為二類或二元分類問題。
多于兩個類別的問題通常被稱為多類別分類問題。
一個例子被指派多個類的問題被稱為多標簽分類問題。

分類模型通常將連續值預測為屬于每個輸出類別的給定示例的概率。概率可以被解釋為屬于每個類別的給定例子的可能性或置信度。可以通過選擇具有最高概率的類別標簽將預測概率轉換為類別值。

例如，特定的文本電子郵件可能被指定為“垃圾郵件”的概率為0.1，“非垃圾郵件”的概率為0.9。通過選擇“非垃圾郵件”標簽，我們可以將這些概率轉換為類標簽，因為它具有最高的預測可能性。

評估分類預測模型的技巧有很多種方法，但最常見的方法是計算分類準確度。

分類準確率是所有預測中正確分類的百分比。

例如，如果一個分類預測模型做了5個預測，其中3個是正確的，2個是不正確的，那么基于這些預測的模型的分類準確性將是：

accuracy = correct predictions / total predictions * 100accuracy = 3 / 5 * 100accuracy = 60%

能夠學習分類預測模型的算法被稱為分類算法。

回歸預測建模

回歸預測建模是將輸入變量（X）映射到連續輸出變量（y）的映射函數（f）的任務。

連續輸出變量是一個實數值，例如整數或浮點值。這些往往是數量，如金額和大小。

例如，一所房子可能會以特定的美元價值出售，可能在$ 100,000到$ 200,000的范圍內。

回歸問題需要預測數量。
回歸可以具有實值或離散的輸入變量。
多輸入變量的問題通常稱為多元回歸問題。
輸入變量按時間排序的回歸問題稱為時間序列預測問題。

由于回歸預測模型預測一個數量，所以該模型的技巧必須作為這些預測中的一個誤差來報告。

估計回歸預測模型的技巧有許多方法，但最常見的可能是計算均方根誤差，縮寫為首字母縮略詞是RMSE。

例如，如果一個回歸預測模型做了2個預測，其中1.5的期望值是1.0，另一個是3.3，期望值是3.0，那么RMSE是：

RMSE = sqrt(average(error^2))RMSE = sqrt(((1.0 - 1.5)^2 + (3.0 - 3.3)^2) / 2)RMSE = sqrt((0.25 + 0.09) / 2)RMSE = sqrt(0.17)RMSE = 0.412

RMSE的一個優點是錯誤分數的單位與預測值的單位相同。

能夠學習回歸預測模型的算法被稱為回歸算法。

一些算法的名稱中包含“回歸”這個詞，如線性回歸和邏輯回歸，因為線性回歸是一種回歸算法，而邏輯回歸是一種分類算法，這令人感到困惑。

分類與回歸

分類預測建模問題不同于回歸預測建模問題。

分類是預測離散類標簽的任務。
回歸是預測連續數量的任務。

分類和回歸算法之間有一些重疊，例如：

分類算法可以預測連續值，但是連續值是以類標簽的概率的形式。
回歸算法可以預測離散值，但離散值以整數形式表示。

一些算法可用于分類和回歸的小修改，例如決策樹和人工神經網絡。有些算法不能或不能很容易地用于這兩種問題類型，例如用于回歸預測建模的線性回歸和用于分類預測建模的邏輯回歸。

重要的是，我們評估分類和回歸預測的方法各不相同，也不重疊：

分類預測可以使用準確性進行評估，而回歸預測則不能。
回歸預測可以使用均方根誤差進行評估，而分類預測則不能。

分類和回歸問題之間的轉換

在某些情況下，將回歸問題轉換為分類問題是可能的。例如，要預測的數量可以轉換成離散的量。

例如，連續0至100美元之間的金額可以轉換成2個量：

第0類：0至49美元
第1類：50至100美元

這通常被稱為離散化，產生的輸出變量是一種分類，其中標簽有一個有序的關系（稱為序數）。

在某些情況下，分類問題可以轉化為回歸問題。例如，標簽可以被轉換成連續的范圍。

有些算法通過預測每一個類的概率，從而依次縮放到特定的范圍：

quantity = min + probability * range

另外，可以將類值排序并映射到連續范圍：

0到49美元為第1類
50到100美元為第二類

如果分類問題中的類別標簽不具有自然的序數關系，則從分類到回歸的轉換可能會導致令人驚訝或糟糕的性能，因為該模型可能會從輸入到連續輸出范圍學習錯誤或不存在的映射。

進一步的閱讀

如果你想深入了解，本節將提供更多有關該主題的資源。

簡要介紹預測建模
機器學習算法如何工作

總結

在本教程中，你了解了分類和回歸問題之間的區別。

具體來說，你了解到：

預測建模是關于從輸入到輸出學習映射函數的問題，稱為函數逼近。
分類是預測離散類標簽輸出的問題。
回歸是預測連續數量輸出的問題。

作者信息

Dr. Jason Brownlee?是一名機器學習從業者，學術研究人員，致力于幫助開發人員從入門到精通機器學習。

本文由北郵@愛可可-愛生活老師推薦，阿里云云棲社區組織翻譯。

文章原標題《Difference Between Classification and Regression in Machine Learning》

作者：Dr.Jason Brownlee?譯者：董昭男審核：海棠

文章為簡譯，更為詳細內容，請查看原文

總結

以上是生活随笔為你收集整理的机器学习基础：分类vs回归的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：关于Swift中Struct，Class
下一篇：配置路由器图文教程-配置路由器图文教程图

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

机器学习基础：分类vs回归

文章概述

函數逼近

分類預測模型

回歸預測建模

分類與回歸

分類和回歸問題之間的轉換

進一步的閱讀

總結

總結