【ML】 李宏毅机器学习二:Logistic Regression
我們將在分類模型基礎上繼續,并開始學習一種常用的分類算法——Logistic回歸,邏輯回歸logistic regression,雖然名字是回歸,但是實際上它是處理分類問題的算法。簡單的說回歸問題和分類問題如下:
- 回歸問題:預測一個連續的輸出。
- 分類問題:離散輸出,比如二分類問題輸出0或1。
- 邏輯回歸常用于垃圾郵件分類,天氣預測、疾病判斷和廣告投放。
一、Step 1: Function Set
-
同樣考慮一個而分類問題,此時Function Set 為:fx=Pw,b(C1∣x)=σ(z)=11+exp?{?(wx+b)}f_{x}=P_{w, b}\left(C_{1} | x\right)=\sigma(z)=\frac{1}{1+\exp \{-(w x+b)\}}fx?=Pw,b?(C1?∣x)=σ(z)=1+exp{?(wx+b)}1?
-
如果Pw,b(C1∣x)>0.5P_{w, b}\left(C_{1} | x\right)>0.5Pw,b?(C1?∣x)>0.5,class為C1C_{1}C1?,否則為C2C_{2}C2?
-
Sigmoid function
-
Function Set
二、Step 2: Goodness of a Function
-
Assume the data is generated based onfw,b(x)=Pw,b(C1∣x)f_{w, b}(x)=P_{w, b}\left(C_{1} | x\right)fw,b?(x)=Pw,b?(C1?∣x)
-
Given a set of w and b, what is its probability of generating the data?
L(w,b)=fw,b(x1)fw,b(x2)(1?fw,b(x3))?fw,b(xN)L(w, b)=f_{w, b}\left(x^{1}\right) f_{w, b}\left(x^{2}\right)\left(1-f_{w, b}\left(x^{3}\right)\right) \cdots f_{w, b}\left(x^{N}\right) L(w,b)=fw,b?(x1)fw,b?(x2)(1?fw,b?(x3))?fw,b?(xN) -
The most likely w?w^{*}w?is the one with the largest L(w,b)L(w, b)L(w,b).
w?,b?=arg?max?w,bL(w,b)w^{*}, b^{*}=\arg \max _{w, b} L(w, b) w?,b?=argw,bmax?L(w,b)
-
classC1C_{1}C1?的標記y^\hat{y}y^?為1,classC2C_{2}C2?的標記y^\hat{y}y^?為0
L(w,b)=∏i=1nP(C1∣xi),ln?L=∑i=1n[y^ifw,b(xi)+(1?y^i)(1?fw,b(xi))]L(w, b)=\prod_{i=1}^{n} P\left(C_{1} | x_{i}\right), \ln L=\sum_{i=1}^{n}\left[\hat{y}^{i} f_{w, b}\left(x^{i}\right)+\left(1-\hat{y}^{i}\right)\left(1-f_{w, b}\left(x^{i}\right)\right)\right]L(w,b)=i=1∏n?P(C1?∣xi?),lnL=i=1∑n?[y^?ifw,b?(xi)+(1?y^?i)(1?fw,b?(xi))]
? 根據極大似然估計,為了極大化L,等價于極小化?ln?L-\ln L?lnL,求解得到
w?,b?=argmin?w,b∑i=1n?[y^ifw,b(xi)+(1?y^i)(1?fw,b(xi))]w^{*}, b^{*}=\operatorname{argmin}_{w, b} \sum_{i=1}^{n}-\left[\hat{y}^{i} f_{w, b}\left(x^{i}\right)+\left(1-\hat{y}^{i}\right)\left(1-f_{w, b}\left(x^{i}\right)\right)\right] w?,b?=argminw,b?i=1∑n??[y^?ifw,b?(xi)+(1?y^?i)(1?fw,b?(xi))]
-
交叉熵 - cross entropy
C(f(xn),(y^)n)=?[y^nfw,b(xn)+(1?y^n)(1?fw,b(xn))]\left.C\left(f\left(x^{n}\right), (\hat{y}\right)^{n}\right)=-\left[\hat{y}^{n} f_{w, b}\left(x^{n}\right)+\left(1-\hat{y}^{n}\right)\left(1-f_{w, b}\left(x^{n}\right)\right)\right] C(f(xn),(y^?)n)=?[y^?nfw,b?(xn)+(1?y^?n)(1?fw,b?(xn))]
表示Cross entropy between two Bernoulli distribution -
Then the cross entropy is:
H(p,q)=?∑xp(x)ln?(q(x))H(p, q)=-\sum_{x} p(x) \ln (q(x)) H(p,q)=?x∑?p(x)ln(q(x))
三、Step 3: Find the best function
-
z=w?x+b=∑iwixi+bz=w \cdot x+b=\sum_{i} w_{i} x_{i}+b z=w?x+b=i∑?wi?xi?+b
-
fw,b(x)=σ(z)=1/1+exp?(?z)\begin{array}{l}{f_{w, b}(x)=\sigma(z)} {=1 / 1+\exp (-z)}\end{array} fw,b?(x)=σ(z)=1/1+exp(?z)?
四、Logistic Regression and Linear Regression
五、更新參數
六、Multi-class Classification - Softmax
總結
以上是生活随笔為你收集整理的【ML】 李宏毅机器学习二:Logistic Regression的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 各种语言速度之比,实验验证Cgojuli
- 下一篇: 李宏毅机器学习作业2:Winner还是L