【机器学习】当贝叶斯、奥卡姆和香农一起来定义机器学习时
?
介紹
在機器學習的所有高級流行語中,我們很少聽到一個短語將統計學習、信息論和自然哲學的一些核心概念融合成一個三個單詞的組合。
并且,它不僅僅是一個用于機器學習(ML)博士和理論家的短語。對于任何有興趣探索的人來說,它都具有精確且易于理解的含義,而且對于機器學習(ML)和數據科學的實踐者來說,它是一種實用的回報。
我們說的是最小描述長度(Minimum Description Length)。你可能會想這到底是什么…
?
貝葉斯和他的定理
?
那是18世紀下半葉,當時還沒有叫做“概率論”的數學科學分支。人們知道這一點,僅僅是因為聽起來頗為奇怪的“機會主義”——以亞伯拉罕?德?莫耶弗(Abraham de Moievre)的一本書命名。1763年,一篇名為《關于解決機會主義問題的論文》的文章被讀給皇家學會,并發表在《倫敦皇家學會哲學學報》上。在這篇文章中,貝葉斯用一種相當頻繁的方式描述了一個關于聯合概率的簡單定理,它導致了反概率的計算,即貝葉斯定理。
從那以后,統計科學的兩個敵對派別——貝葉斯學派和弗倫庫姆斯學派之間爆發了多次爭論。讓我們暫時忽略歷史,集中于對貝葉斯推理機制的簡單解釋。我只關注方程。
?
這基本上告訴您在看到數據/證據(可能性)后更新您的belief (先驗概率)并將更新的degree of belief 分配給后驗概率你可以從一個belief開始,但是每個數據點要么加強要么削弱你的belief,你會一直更新你的假設。
在統計推斷的世界中,假設是一種belief 。這是一種關于過程本質的belief(我們永遠無法觀察到),它是在產生一個隨機變量(我們可以觀察或測量它,盡管不是沒有噪聲)之后。在統計學中,它通常被定義為一個概率分布。但在機器學習的背景下,它可以被認為是任何一套規則(邏輯或過程),我們相信,這些規則可以產生例子或訓練數據,我們被賦予學習這個神秘過程的隱藏本質。
所以,讓我們試著在不同的符號中重新定義貝葉斯定理——與數據科學相關的符號。我們用D表示數據,用h表示假設,這意味著我們使用貝葉斯公式來確定數據來自什么假設,給定數據。我們把定理重寫為,
?
現在,一般來說,我們有一個很大的(通常是無限的)假設空間,即許多假設可供選擇。貝葉斯推斷的本質是我們想要檢查數據以最大化一個假設的概率,該假設最有可能產生觀察到的數據。我們基本上想要確定P(h | D)的argmax,即我們想知道哪個h,觀察到的D最有可能。為此,我們可以把這個項放到分母P(D)中因為它不依賴于假設。這一方案以極大后驗(MAP)這個饒舌的名字而聞名。
現在,我們應用以下數學技巧,
- 對于原函數,即取對數,極大化的工作原理與之相似,但這并沒有改變極大化的問題。
- 乘積的對數是各個對數的總和
- 數量的最大化等同于負數量的最小化
?
這來自信息論
?
香農
要描述克勞德·香農的天才和奇異的一生,需要大量的篇幅。香農幾乎是單槍匹馬奠定了信息論的基礎,引領我們進入了現代高速通信和信息交流的時代。
香農在麻省理工學院(mit)的電子工程碩士論文被稱為20世紀最重要的碩士論文:22歲的香農在論文中展示了如何利用繼電器和開關的電子電路實現19世紀數學家喬治布爾(George Boole)的邏輯代數。數字計算機設計的最基本的特征——“True”、“False”、“0”和“1”的表示作為打開或關閉的開關,以及使用電子邏輯門來做決策和執行算術——可以追溯到香農論文中的見解。
但這還不是他最大的成就。
1941年,香農去了貝爾實驗室,在那里他從事戰爭事務,包括密碼學。他還在研究信息和通信背后的原創理論。1948年,貝爾實驗室的研究雜志發表了一篇著名的論文。
香農定義了由一個源所產生的信息數量, 例如, 消息中的數量, 這個公式類似于物理中定義熱力學熵的方程式。在最基本的術語中, 香農的信息熵是編碼消息所需的二進制位數。對于具有概率 p 的消息或事件, 該消息的最有效 (即緊湊) 編碼將需要-log2 (p) 位。
這正是出現在貝葉斯定理中的最大后驗表達式中出現的那些術語的本質!
因此,我們可以說,在貝葉斯推理的世界中,最可能的假設依賴于兩項,這兩項喚起了長度的感覺——而不是最小長度。
?
Length(h):奧卡姆剃刀
奧克漢姆的威廉(約1287-1347)是一位英國Franciscan修士和神學家,也是一位有影響力的中世紀哲學家。作為一個偉大的邏輯學家,他的名聲主要來自于他的格言,也就是眾所周知的奧卡姆剃刀。剃刀一詞指的是通過“剔除”不必要的假設或割裂兩個相似的結論來區分兩個假設。
確切地說,他說的是:“實體非必然的多元必然性”(實體不能超過必然性而倍增)。用統計學的話說,這意味著我們必須努力用最簡單的假設來解釋所有的數據。
類似的原則得到了其他杰出人物的響應。
艾薩克·牛頓爵士:“我們不應該承認任何自然事物的原因,就像那些既真實又足以解釋其表象的事物一樣。”
Bertrand Russell:“只要可能,用已知實體的結構替換未知實體的推論。”
下列哪一個決策樹具有較小的長度?A還是B?
?
即使沒有一個假設的“長度”的精確定義,我相信你會認為左邊(A)的樹看起來更小或更短。當然,你是對的。因此,一個更短的假設是一個要么自由參數更少,要么復雜決策邊界更少(對于一個分類問題)的假設,或者這些屬性的組合可以表示它的簡潔性。
?
Length(D|h)
它是假設數據的長度。這是什么意思?
直覺上,它與假設的正確性或表征能力有關。除其他事項外,它還包含一個假設,即“推斷”數據的好壞程度。如果假設真的很好地生成數據并且我們可以無錯誤地測量數據,那么我們根本不需要數據。
想想牛頓運動定律。
它們最初出現在《Principia》一書中,并沒有任何嚴格的數學證明。它們不是定理。它們很像基于對自然物體運動的觀察而做出的假設。但是他們對數據的描述非常非常好。因此它們就變成了物理定律。
這就是為什么你不需要保持和記住所有可能的加速度數字作為一個力作用于物體的函數。你只需要相信compact hypothesis,即F=ma,并相信所有你需要的數字,都可以在必要時從它計算出來。它使得長度(D|h)非常小。
但是如果數據與compact hypothesis有很大的偏差,那么你需要對這些偏差有一個很長的描述,可能的解釋等等。
因此,Length(D|h)簡潔地表達了“數據與給定假設的吻合程度”的概念。
本質上,它是錯誤分類或錯誤率的概念。對于完美的假設,它是短的,在極限情況下為零。對于一個不完全符合數據的假設,它往往比較長。
這就是權衡。
如果你用奧卡姆剃刀刮掉了你的假設,你很可能會得到一個簡單的模型,一個不適合所有數據的模型。因此,你必須提供更多的數據來獲得更好的brief。另一方面,如果你創建一個復雜的(長時間的)假設,你可能會很好地擬合你的訓練數據,但這實際上可能不是正確的假設,因為它違背了具有小熵的假設的映射原則。
聽起來像是偏差差權衡?是的
?
?
三者結合
因此,貝葉斯推理告訴我們,最好的假設是最小化假設的長度和錯誤率這兩項之和。
在這個意義深遠的句子中,它幾乎囊括了所有(有監督的)機器學習。
- 線性模型的模型復雜度-多項式選擇,如何減少殘差平方和。
- 神經網絡結構的選擇-如何不過度擬合訓練數據,達到良好的驗證精度,但減少分類誤差。
- 支持向量機正則化和核選擇-軟與硬邊界的平衡,即用決策邊界非線性來平衡精度。
?
結論
一個奇妙的事實是,如此簡單的一套數學操作就能在概率論的基本特征上產生如此深刻而簡潔的描述監督機器學習的基本限制和目標。讀者可以參考卡內基梅隆大學(Carnegie Mellon University)的博士論文《機器學習為何有效》(Why Machine Learning Works),以簡明地闡述這些問題。同樣值得思考的是,所有這些理論是如何與“沒有免費午餐定理”理論聯系起來的。
?
原文:https://towardsdatascience.com/when-bayes-ockham-and-shannon-come-together-to-define-machine-learning-96422729a1ad
?
總結
以上是生活随笔為你收集整理的【机器学习】当贝叶斯、奥卡姆和香农一起来定义机器学习时的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 无代码开发平台为什么能火?它是如何收费的
- 下一篇: 科研必备文献管理软件EndNote