统计学习方法-第二章课后习题答案整理
2.1Minsky和Papert指出:
感知機因為是線性模型,
所以不能表示復雜的函數,如異或。
驗證感知機為什么不能表示異或
參考鏈接:
https://blog.csdn.net/yangfeisc/article/details/45486067
2.2,換下數據即可,具體代碼實現參考:
https://blog.csdn.net/appleyuchi/article/details/82928881
2.3
樣本集線性可分的充分必要條件是:
正實例點集構成的凸殼與負實例點集所構成的凸殼互不相交
首先是概念:
這里的凸殼≠凸集。
“相交”的意思是:一個樣本點,既屬于凸殼A,也屬于凸殼B,
也就是說,某個樣本點同時滿足兩個集合的約束條件。
凸殼到底是一個什么鬼?????
看下面的初中數學課件回顧一下:
證明如下:
必要性:線性可分->凸殼不相交
設數據集T中的正例點集為S+S_{+}S+?,
S+S_{+}S+?的凸殼為conv(S+)conv(S_{+})conv(S+?),
負實例點集為S?S_{-}S??,
S?S_{-}S??的凸殼為conv(S?)conv(S_{-})conv(S??),
若T是線性可分的,則存在一個超平面:w?x+b=0w\cdot x +b =0w?x+b=0能夠將S+S_{+}S+?和S?S_{-}S??
完全分離。
假設對于所有的正例點xix_{i}xi?,有:
w?xi+b=εiw\cdot x_{i}+b=\varepsilon_{i}w?xi?+b=εi?易知εi>0,i=1,2,?,∣S+∣\varepsilon_{i}>0,i=1,2,\cdots,|S_{+}|εi?>0,i=1,2,?,∣S+?∣。
若conv(S+)conv(S_{+})conv(S+?)和conv(S?)conv(S_{-})conv(S??)相交,即存在某個元素s,
同時滿足s∈conv(S+)和s∈conv(S?)s\in{conv(S_{+})}和s\in{conv(S_{-})}s∈conv(S+?)和s∈conv(S??)。
對于conv(S+)conv(S_{+})conv(S+?)中的元素s+s^{+}s+
有w?s+=w?∑i=1kλixi=∑i=1kλi(εi?b)=∑i=1k(λiεi?bλi)w\cdot s^{+}=w\cdot \sum^{k}_{i=1}\lambda_{i}x_{i}=\sum^{k}_{i=1}\lambda_{i}(\varepsilon_{i}-b)=\sum^{k}_{i=1}(\lambda_{i}\varepsilon_{i}-b\lambda_{i})w?s+=w?i=1∑k?λi?xi?=i=1∑k?λi?(εi??b)=i=1∑k?(λi?εi??bλi?)
注意,這里因為凸殼(convex hull)的性質,有:
∑i=1kλi=1\sum_{i=1}^{k}\lambda_{i}=1∑i=1k?λi?=1
所以上面的結果是:
∑i=1k(λiεi)?b\sum^{k}_{i=1}(\lambda_{i}\varepsilon_{i})-bi=1∑k?(λi?εi?)?b
因此w?s++b=∑i=1kλiεi>0w\cdot s^{+}+b=\sum^{k}_{i=1}\lambda_{i}\varepsilon_{i}>0w?s++b=∑i=1k?λi?εi?>0,
同理對于S?S_{-}S??中的元素s?s^{-}s?有
w?s?+b=∑i=1kλiεi<0w\cdot s^{-}+b=\sum^{k}_{i=1}\lambda_{i}\varepsilon_{i}<0w?s?+b=∑i=1k?λi?εi?<0,
線性可分條件下,假設兩個凸殼相交,那么存在樣本點s同時滿足
s∈conv(S+)s\in{conv(S_{+})}s∈conv(S+?)且s∈conv(S?)s\in{conv(S_{-})}s∈conv(S??)
則w?s++b=w?s+b=∑i=1kλiεi>0①w\cdot s^{+}+b=w\cdot s+b=\sum^{k}_{i=1}\lambda_{i}\varepsilon_{i}>0①w?s++b=w?s+b=∑i=1k?λi?εi?>0①
且w?s?+b=w?s+b=∑i=1kλiεi>0②w\cdot s^{-}+b=w\cdot s+b=\sum^{k}_{i=1}\lambda_{i}\varepsilon_{i}>0②w?s?+b=w?s+b=∑i=1k?λi?εi?>0②
②違反了假設的前提:線性可分。
因為線性可分時,必須有②<0
所以假設不成立,因此conv(S+)conv(S_{+})conv(S+?)和conv(S?)conv(S_{-})conv(S??)必不相交
從而推出必要性:線性可分->凸殼不相交
充分性:凸殼不相交->線性可分
設數據集T中的正例點集為S+,S+S_{+},S_{+}S+?,S+?的凸殼為conv(S+)conv(S_{+})conv(S+?),負實例點集為S?,S?S_{-},S_{-}S??,S??的凸殼為conv(S?),且conv(S+)與conv(S?)conv(S_{-}),且conv(S_{+})與conv(S_{-})conv(S??),且conv(S+?)與conv(S??)不相交,
定義兩個點x1,x2x_{1},x_{2}x1?,x2?的距離為
dist(x1,x2)=∣∣x1?x2∣∣2=(x1?x2)?(x1?x2)dist(x_{1},x_{2})=||x_{1}-x_{2}||_{2}=\sqrt {(x_{1}-x_{2})\cdot (x_{1}-x_{2})}dist(x1?,x2?)=∣∣x1??x2?∣∣2?=(x1??x2?)?(x1??x2?)?
定義conv(S+)與conv(S?)conv(S_{+})與conv(S_{-})conv(S+?)與conv(S??)的距離為,
dist(conv(S+),conv(S?))=min?∣∣s+?s?∣∣,s+∈conv(S+),s?∈conv(S?)dist(conv(S_{+}),conv(S_{-}))= \min||s_{+}-s_{-}||, s_{+}\in conv(S_{+}),s_{-}\in conv(S_{-})dist(conv(S+?),conv(S??))=min∣∣s+??s??∣∣,s+?∈conv(S+?),s??∈conv(S??)
設x+∈conv(S+),x?∈conv(S?)x_{+}\in conv(S_{+}),x_{-}\in conv(S_{-})x+?∈conv(S+?),x??∈conv(S??)且dist(x+,x?)=dist(conv(S+),conv(S?))dist(x_{+},x_{-})=dist(conv(S_{+}),conv(S_{-}))dist(x+?,x??)=dist(conv(S+?),conv(S??))。
則對于任意正例點x有dist(x,x?)≥dist(x+,x?)dist(x,x_{-})\geq dist(x_{+},x_{-})dist(x,x??)≥dist(x+?,x??)。
注意,這里的(x+,x?)(x_{+},x_{-})(x+?,x??)是用來代表S+S_{+}S+?和S?S_{-}S??最近距離的兩個點。
同理,對于所有的負例點x有dist(x,x+)≥dist(x,x?)dist(x,x_{+})\geq dist(x,x_{-})dist(x,x+?)≥dist(x,x??)。
存在超平面w?x+b=0w\cdot x+b=0w?x+b=0其中
w=x+?x?w=x_{+}-x_{-}w=x+??x??
b=?x+?x+?x??x?2b=-\frac{x_{+}\cdot x_{+} - x_{-}\cdot x_{-}}{2}b=?2x+??x+??x???x???
(以上就是兩個技巧)
則對于所有的正例點x(易知w?x++b>0w·x_{+} +b>0w?x+?+b>0,因此若x+x_{+}x+?屬于正例點,則令x+≠xx_{+}\neq xx+??=x),
w?x+bw\cdot x +bw?x+b
=(x+?x?)?x?x+?x+?x??x?2=(x_{+}-x_{-})\cdot x-\frac{x_{+}\cdot x_{+} - x_{-}\cdot x_{-}}{2}=(x+??x??)?x?2x+??x+??x???x???
=x+?x?x??x?x+?x+?x??x?2=x_{+}\cdot x -x_{-}\cdot x - \frac{x_{+}\cdot x_{+}-x_{-}\cdot x_{-}}{2}=x+??x?x???x?2x+??x+??x???x???
=∣∣x??x∣∣22?∣∣x+?x∣∣222=\frac{||x_{-}-x||_{2}^{2}-||x_{+}-x||_{2}^{2}}{2}=2∣∣x???x∣∣22??∣∣x+??x∣∣22??
=dist(x,x?)2?dist(x,x+)22=\frac{dist(x,x_{-})^2-dist(x,x_{+})^2}{2}=2dist(x,x??)2?dist(x,x+?)2?
(這里我覺得不用搞得跟下面一樣麻煩,只要分別在兩個凸殼中各自取一個點,就能說明上面的式子的符號想相反的了,然后就得證了。)
若dist(x,x?)≤dist(x,x+)dist(x,x_{-})\leq dist(x,x_{+})dist(x,x??)≤dist(x,x+?),
則dist(x,x?)≤dist(x,x+)≤dist(x?,x+)dist(x,x_{-})\leq dist(x,x_{+}) \leq dist(x_{-},x_{+})dist(x,x??)≤dist(x,x+?)≤dist(x??,x+?),
那么dist(S+,S?)<dist(x+,x?)dist(S_{+},S_{-})< dist(x_{+},x_{-})dist(S+?,S??)<dist(x+?,x??)(注:證明過程見下方),
推出矛盾。
因此對所有的正例點,w?x+b>0w·x +b >0w?x+b>0成立。
同理,對所有的負例點,w?x+b<0w·x +b <0w?x+b<0成立。
至此,充分性:凸殼不相交->線性可分
補充:用反正法證明dist(x,x?)>dist(x,x+)dist(x,x_{-})> dist(x,x_{+})dist(x,x??)>dist(x,x+?)
證明:若dist(x,x?)≤dist(x,x+)dist(x,x_{-})\leq dist(x,x_{+})dist(x,x??)≤dist(x,x+?),
則存在t=(x??x+)?(x?x+)∣∣x?x+∣∣22t=\frac{(x_{-}-x_{+})\cdot (x-x_{+})}{||x-x_{+}||_{2}^{2}}t=∣∣x?x+?∣∣22?(x???x+?)?(x?x+?)?,
令x′=tx+(1?t)x+x^{'}=tx+(1-t)x_{+}x′=tx+(1?t)x+?,則(x??x′)?(x+?x)=0(x_{-}-x^{'})· (x_{+}-x)=0(x???x′)?(x+??x)=0。
易知t≤1t\leq 1t≤1先證明0<t,我們可以將x,x_{+},x_{-}看作是空間中三個不同的點,三條邊的長度分別為dist(x,x+),dist(x,x?),dist(x?,x+)dist(x,x_{+}),dist(x,x_{-}),dist(x_{-},x_{+})dist(x,x+?),dist(x,x??),dist(x??,x+?)
由上文知dist(x,x+)≥dist(x,x?)≥dist(x?,x+)dist(x,x_{+})\geq dist(x,x_{-})\geq dist(x_{-},x_{+})dist(x,x+?)≥dist(x,x??)≥dist(x??,x+?)
根據三角形的大邊對應大角這一特性,很容易可以看出
x+?xx_{+}-xx+??x與x+?x?x_{+}-x_{-}x+??x??之間的夾角小于90度,
因此t>0。
那么
dist(x′,x?)<dist(x+,x?),dist(x^{'},x_{-})<dist(x_{+},x_{-}),dist(x′,x??)<dist(x+?,x??),
又因為x′x^{'}x′必在conv(S+)conv(S_{+})conv(S+?)內部,
所以推出矛盾。
本文來自 藍色骨頭零號 的CSDN 博客 ,全文地址請點擊:https://blog.csdn.net/y954877035/article/details/52210734?utm_source=copy
總結
以上是生活随笔為你收集整理的统计学习方法-第二章课后习题答案整理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 统计学习方法例2.1实现(转)
- 下一篇: 统计学习方法第四章课后习题(转载+重新排