机器学习知识点(三十五)蒙特卡罗方法
強化學習中免模型學習采用蒙特卡羅方法去逼近最優解,那這種采樣原理是怎樣的呢?
1、蒙特卡羅思想
? ? ? 是一類隨機方法的統稱。這類方法的特點是,可以在隨機采樣上計算得到近似結果,隨著采樣的增多,得到的結果是正確結果的概率逐漸加大,但在(放棄隨機采樣,而采用類似全采樣這樣的確定性方法)獲得真正的結果之前,無法知道目前得到的結果是不是真正的結果。
? ? ? 和拉斯維加斯算法相比,經典的描述就是:
? ? ?蒙特卡羅算法:采樣越多,越近似最優解;盡量找好的,但不保證是最好的。
? ? 拉斯維加斯算法:采樣越多,越有機會找到最優解;盡量找最好的,但不保證能找到。
? ? 這是一種采樣隨機的算法或原理。誕生于上個世紀40年代美國的"曼哈頓計劃",名字來源于賭城蒙特卡羅,象征概率。近似或逼近,插值等等概念不外如是。
2、蒙特卡羅數學定義
??
??
3、借案例理解-π的計算
? ??蒙特卡羅算法表示采樣越多,越近似最優解。舉個例子,假如筐里有100個蘋果,讓我每次閉眼拿1個,挑出最大的。于是我隨機拿1個,再隨機拿1個跟它比,留下大的,再隨機拿1個……我每拿一次,留下的蘋果都至少不比上次的小。拿的次數越多,挑出的蘋果就越大,但我除非拿100次,否則無法肯定挑出了最大的。這個挑蘋果的算法,就屬于蒙特卡羅算法。告訴我們樣本容量足夠大,則最接近所要求解的概率。
? ??
如何用蒙特卡羅方法計算圓周率π。
正方形內部有一個相切的圓,它們的面積之比是π/4。
現在,在這個正方形內部,隨機產生10000個點(即10000個坐標對 (x, y)),計算它們與中心點的距離,從而判斷是否落在圓的內部。
如果這些點均勻分布,那么圓內的點應該占到所有點的 π/4,因此將這個比值乘以4,就是π的值。通過R語言腳本隨機模擬30000個點,π的估算值與真實值相差0.07%。
? ??
? ? ??
總結
以上是生活随笔為你收集整理的机器学习知识点(三十五)蒙特卡罗方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习笔记(十六)强化学习
- 下一篇: 【正一专栏】欧冠决赛点评——只服齐达内,