當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【机器学习】逻辑斯蒂回归概率计算和手动计算对比

發(fā)布時間：2023/12/20 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了【机器学习】逻辑斯蒂回归概率计算和手动计算对比小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

二分類，邏輯斯蒂回歸概率計算

import numpy as np from sklearn import datasets from sklearn.linear_model import LogisticRegression from sklearn.model_selection import train_test_splitX,y = datasets.load_iris(True)cond = y!=2X = X[cond] y = y[cond]result = train_test_split(X,y,test_size = 0.2) lr = LogisticRegression() #默認參數(shù)是multi_class =‘ ovr’ lr.fit(result[0],result[2])w = lr.coef_ b = lr.intercept_ print(w,b)

[[-0.34810833 -1.44374096 2.10532233 0.92880099]] [-0.2257872]

# X_test = result[1] proba_ = lr.predict_proba(result[1]) proba_[:5]

array([[0.97156547, 0.02843453],
[0.02694131, 0.97305869],
[0.0148049 , 0.9851951 ],
[0.89064238, 0.10935762],
[0.08131901, 0.91868099]])

# 手動計算概率 h = result[1].dot(w[0].T) + b # 類別1的概率，p；另一類的概率是 1-p # sigmoid函數(shù)中計算概率 p = 1/(1 + np.e**(-h)) np.c_[1-p,p][:5]

array([[0.97156547, 0.02843453],
[0.02694131, 0.97305869],
[0.0148049 , 0.9851951 ],
[0.89064238, 0.10935762],
[0.08131901, 0.91868099]])

多分類概率計算

X,y = datasets.load_iris(True)X_train,X_test,y_train,y_test = train_test_split(X,y,test_size = 0.2) '''{'newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga'}, optional (default='liblinear')'''#三個特征的時候選用 multinomial 指定solver = ‘saga’ lr = LogisticRegression(multi_class = 'multinomial',solver = 'saga') lr.fit(X_train,y_train) proba_ = lr.predict_proba(X_test) proba_[:5]

array([[2.83886375e-03, 3.43540675e-01, 6.53620461e-01],
[7.01459536e-05, 5.08027666e-02, 9.49127087e-01],
[2.25910422e-02, 8.48058248e-01, 1.29350710e-01],
[1.66217061e-02, 7.49819482e-01, 2.33558812e-01],
[1.78524805e-04, 7.47710404e-02, 9.25050435e-01]])

$exi∑i=0Nexi\frac{e^{x_i}}{\sum_{i=0}^Ne^{x_i}}$

x = np.array([1,3,-1,10]) # softmax 軟最大：將數(shù)值轉(zhuǎn)化成概率，比較 p = np.e**(x)/((np.e**(x)).sum()) p

array([1.23280114e-04, 9.10923680e-04, 1.66841492e-05, 9.98949112e-01])

p.sum()

1.0

# 三分類，三個方程，每個方程中4個系數(shù) w = lr.coef_b = lr.intercept_ b

array([ 0.72228862, 1.00179962, -1.72408823])

h = X_test.dot(w.T) + b # softmax # 根據(jù) softmax數(shù)學(xué)公式，計算了類別的概率 p = np.e**h/((np.e**h).sum(axis = 1).reshape(-1,1)) p[:5]

proba_[:5]

sklearn.linear_model.LogisticRegression()函數(shù)全稱是Logistic回歸（aka logit，MaxEnt）分類器。

class sklearn.linear_model.LogisticRegression(penalty=‘l2’, dual=False, tol=0.0001, C=1.0, fit_intercept=True,
intercept_scaling=1, class_weight=None, random_state=None,
solver=‘lbfgs’, max_iter=100, multi_class=‘a(chǎn)uto’, verbose=0,
warm_start=False, n_jobs=None, l1_ratio=None)

參數(shù)：

penalty：懲罰項，str類型，可選參數(shù)為l1和l2，默認為l2。用于指定懲罰項中使用的規(guī)范。newton-cg、sag和lbfgs求解算法只支持L2規(guī)范。L1G規(guī)范假設(shè)的是模型的參數(shù)滿足拉普拉斯分布，L2假設(shè)的模型參數(shù)滿足高斯分布，所謂的范式就是加上對參數(shù)的約束，使得模型更不會過擬合(overfit)，但是如果要說是不是加了約束就會好，這個沒有人能回答，只能說，加約束的情況下，理論上應(yīng)該可以獲得泛化能力更強的結(jié)果。

dual： 對偶或原始方法，bool類型，默認為False。對偶方法只用在求解線性多核(liblinear)的L2懲罰項上。當(dāng)樣本數(shù)量>樣本特征的時候，dual通常設(shè)置為False。
tol： 停止求解的標(biāo)準，float類型，默認為1e-4。就是求解到多少的時候，停止，認為已經(jīng)求出最優(yōu)解。
c：正則化系數(shù)λ的倒數(shù)，float類型，默認為1.0。必須是正浮點型數(shù)。像SVM一樣，越小的數(shù)值表示越強的正則化。
fit_intercept： 是否存在截距或偏差，bool類型，默認為True。
intercept_scaling： 僅在正則化項為”liblinear”，且fit_intercept設(shè)置為True時有用。float類型，默認為1。
class_weight： 用于標(biāo)示分類模型中各種類型的權(quán)重，可以是一個字典或者balanced字符串，默認為不輸入，也就是不考慮權(quán)重，即為None。如果選擇輸入的話，可以選擇balanced讓類庫自己計算類型權(quán)重，或者自己輸入各個類型的權(quán)重。舉個例子，比如對于0,1的二元模型，我們可以定義class_weight={0:0.9,1:0.1}，這樣類型0的權(quán)重為90%，而類型1的權(quán)重為10%。如果class_weight選擇balanced，那么類庫會根據(jù)訓(xùn)練樣本量來計算權(quán)重。某種類型樣本量越多，則權(quán)重越低，樣本量越少，則權(quán)重越高。當(dāng)class_weight為balanced時，類權(quán)重計算方法如下：n_samples / (n_classes * np.bincount(y))。n_samples為樣本數(shù)，n_classes為類別數(shù)量，np.bincount(y)會輸出每個類的樣本數(shù)，例如y=[1,0,0,1,1],則np.bincount(y)=[2,3]。
那么class_weight有什么作用呢？在分類模型中，我們經(jīng)常會遇到兩類問題：
第一種是誤分類的代價很高。比如對合法用戶和非法用戶進行分類，將非法用戶分類為合法用戶的代價很高，我們寧愿將合法用戶分類為非法用戶，這時可以人工再甄別，但是卻不愿將非法用戶分類為合法用戶。這時，我們可以適當(dāng)提高非法用戶的權(quán)重。
第二種是樣本是高度失衡的，比如我們有合法用戶和非法用戶的二元樣本數(shù)據(jù)10000條，里面合法用戶有9995條，非法用戶只有5條，如果我們不考慮權(quán)重，則我們可以將所有的測試集都預(yù)測為合法用戶，這樣預(yù)測準確率理論上有99.95%，但是卻沒有任何意義。這時，我們可以選擇balanced，讓類庫自動提高非法用戶樣本的權(quán)重。提高了某種分類的權(quán)重，相比不考慮權(quán)重，會有更多的樣本分類劃分到高權(quán)重的類別，從而可以解決上面兩類問題。
random_state： 隨機數(shù)種子，int類型，可選參數(shù)，默認為無，僅在正則化優(yōu)化算法為sag,liblinear時有用。
solver： 優(yōu)化算法選擇參數(shù)，只有五個可選參數(shù)，即newton-cg,lbfgs,liblinear,sag,saga。默認為liblinear。solver參數(shù)決定了我們對邏輯回歸損失函數(shù)的優(yōu)化方法，有四種算法可以選擇，分別是：

liblinear： 使用了開源的liblinear庫實現(xiàn)，內(nèi)部使用了坐標(biāo)軸下降法來迭代優(yōu)化損失函數(shù)。
lbfgs： 擬牛頓法的一種，利用損失函數(shù)二階導(dǎo)數(shù)矩陣即海森矩陣來迭代優(yōu)化損失函數(shù)。
newton-cg： 也是牛頓法家族的一種，利用損失函數(shù)二階導(dǎo)數(shù)矩陣即海森矩陣來迭代優(yōu)化損失函數(shù)。
sag：
即隨機平均梯度下降，是梯度下降法的變種，和普通梯度下降法的區(qū)別是每次迭代僅僅用一部分的樣本來計算梯度，適合于樣本數(shù)據(jù)多的時候。
saga： 線性收斂的隨機優(yōu)化算法的的變重。

總結(jié)：

liblinear適用于小數(shù)據(jù)集，而sag和saga適用于大數(shù)據(jù)集因為速度更快。

對于多分類問題，只有newton-cg,sag,saga和lbfgs能夠處理多項損失，而liblinear受限于一對剩余(OvR)。啥意思，就是用liblinear的時候，如果是多分類問題，得先把一種類別作為一個類別，剩余的所有類別作為另外一個類別。一次類推，遍歷所有類別，進行分類。
newton-cg,sag和lbfgs這三種優(yōu)化算法時都需要損失函數(shù)的一階或者二階連續(xù)導(dǎo)數(shù)，因此不能用于沒有連續(xù)導(dǎo)數(shù)的L1正則化，只能用于L2正則化。而liblinear和saga通吃L1正則化和L2正則化。
同時，sag每次僅僅使用了部分樣本進行梯度迭代，所以當(dāng)樣本量少的時候不要選擇它，而如果樣本量非常大，比如大于10萬，sag是第一選擇。但是sag不能用于L1正則化，所以當(dāng)你有大量的樣本，又需要L1正則化的話就要自己做取舍了。要么通過對樣本采樣來降低樣本量，要么回到L2正則化。
從上面的描述，大家可能覺得，既然newton-cg, lbfgs和sag這么多限制，如果不是大樣本，我們選擇liblinear不就行了嘛！錯，因為liblinear也有自己的弱點！我們知道，邏輯回歸有二元邏輯回歸和多元邏輯回歸。對于多元邏輯回歸常見的有one-vs-rest(OvR)和many-vs-many(MvM)兩種。而MvM一般比OvR分類相對準確一些。郁悶的是liblinear只支持OvR，不支持MvM，這樣如果我們需要相對精確的多元邏輯回歸時，就不能選擇liblinear了。也意味著如果我們需要相對精確的多元邏輯回歸不能使用L1正則化了。
max_iter：算法收斂最大迭代次數(shù)，int類型，默認為10。僅在正則化優(yōu)化算法為newton-cg, sag和lbfgs才有用，算法收斂的最大迭代次數(shù)。
**multi_class：分類方式選擇參數(shù)，str類型，可選參數(shù)為ovr和multinomial，默認為ovr。**ovr即前面提到的one-vs-rest(OvR)，而multinomial即前面提到的many-vs-many(MvM)。如果是二元邏輯回歸，ovr和multinomial并沒有任何區(qū)別，區(qū)別主要在多元邏輯回歸上。
OvR和MvM有什么不同？
OvR的思想很簡單，無論你是多少元邏輯回歸，都可以看做二元邏輯回歸。具體做法是，對于第K類的分類決策，我們把所有第K類的樣本作為正例，除了第K類樣本以外的所有樣本都作為負例，然后在上面做二元邏輯回歸，得到第K類的分類模型。其他類的分類模型獲得以此類推。
而MvM則相對復(fù)雜，這里舉MvM的特例one-vs-one(OvO)作講解。如果模型有T類，我們每次在所有的T類樣本里面選擇兩類樣本出來，不妨記為T1類和T2類，把所有的輸出為T1和T2的樣本放在一起，把T1作為正例，T2作為負例，進行二元邏輯回歸，得到模型參數(shù)。我們一共需要T(T-1)/2次分類。
可以看出OvR相對簡單，但分類效果相對略差（這里指大多數(shù)樣本分布情況，某些樣本分布下OvR可能更好）。而MvM分類相對精確，但是分類速度沒有OvR快。如果選擇了ovr，則4種損失函數(shù)的優(yōu)化方法liblinear，newton-cg,lbfgs和sag都可以選擇。但是如果選擇了multinomial,則只能選擇newton-cg, lbfgs和sag了。
verbose：日志冗長度，int類型。默認為0。就是不輸出訓(xùn)練過程，1的時候偶爾輸出結(jié)果，大于1，對于每個子模型都輸出。
warm_start：熱啟動參數(shù)，bool類型。默認為False。如果為True，則下一次訓(xùn)練是以追加樹的形式進行（重新使用上一次的調(diào)用作為初始化）。
n_jobs：并行數(shù)。int類型，默認為1。1的時候，用CPU的一個內(nèi)核運行程序，2的時候，用CPU的2個內(nèi)核運行程序。為-1的時候，用所有CPU的內(nèi)核運行程序。
還有其他參數(shù)：

總結(jié)

以上是生活随笔為你收集整理的【机器学习】逻辑斯蒂回归概率计算和手动计算对比的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：机器学习之凸优化原理推导及相关知识总结
下一篇： shell while循环