UA MATH567 高维统计I 概率不等式11 Azuma不等式
UA MATH567 高維統計I 概率不等式11 Azuma不等式
前十一講介紹的不等式的理論基礎都是Markov不等式,根據Markov不等式我們導出了Chebyshev不等式、Hoeffding不等式、Chernoff不等式、推廣的Hoeffding不等式、Khintchine不等式與Bernstein不等式,并發展了用來表示一類具有相同concentration performance的分布族的方法:亞高斯分布、亞指數分布、以及更一般的Orlicz空間與Orlicz范數方法。
從這一講開始,我們介紹另外兩種導出概率不等式的方法:鞅差序列法、Lipschitz函數法,鞅差序列法可以放松獨立性的假設,而Lipschitz函數法在后續介紹隨機向量、隨機矩陣等結構的時候具有非常重要的作用。這一講我們先介紹用鞅差序列法+Markov不等式導出Azuma不等式。
Azuma不等式
假設(Xj,Fj)(X_j,\mathcal{F}_j)(Xj?,Fj?)是一個鞅差序列,即
簡單起見,我們定義Fj=σ({X1,?,Xj})\mathcal{F}_j = \sigma(\{X_1,\cdots,X_j\})Fj?=σ({X1?,?,Xj?})。假設∣Xj∣≤1,a.s.|X_j| \le 1,a.s.∣Xj?∣≤1,a.s.,則?λ>0\forall \lambda>0?λ>0,Sn=X1+?+XnS_n=X_1 + \cdots + X_nSn?=X1?+?+Xn?滿足
P(∣Sn∣≥λn)≤Ce?cλ2P(|S_n| \ge \lambda \sqrt{n}) \le Ce^{-c\lambda^2}P(∣Sn?∣≥λn?)≤Ce?cλ2
其中C,cC,cC,c是兩個正的常數。
說明
我們計算EetSnEe^{tS_n}EetSn?,其中Sn=Sn?1+XnS_n=S_{n-1}+X_nSn?=Sn?1?+Xn?,
EetSn=EetSn?1etXnEe^{tS_n}=Ee^{tS_{n-1}}e^{tX_n}EetSn?=EetSn?1?etXn?
需要注意的是Sn?1S_{n-1}Sn?1?與XnX_nXn?并不獨立,所以不能把這個乘積的期望分開,但是我們可以用條件概率表示,記
Yn=E[etSn?1etXn∣Fn?1]Y_n=E[e^{tS_{n-1}}e^{tX_n}|\mathcal{F}_{n-1}]Yn?=E[etSn?1?etXn?∣Fn?1?]
則EetSn=E[Yn]Ee^{tS_n}=E[Y_n]EetSn?=E[Yn?]。因為
Yn=E[etSn?1etXn∣Fn?1]=etSn?1E[etXn∣Fn?1]EYn=EetSn?1E[etXn∣Fn?1]Y_n=E[e^{tS_{n-1}}e^{tX_n}|\mathcal{F}_{n-1}]=e^{tS_{n-1}}E[e^{tX_n}|\mathcal{F}_{n-1}] \\ EY_n = Ee^{tS_{n-1}}E[e^{tX_n}|\mathcal{F}_{n-1}]Yn?=E[etSn?1?etXn?∣Fn?1?]=etSn?1?E[etXn?∣Fn?1?]EYn?=EetSn?1?E[etXn?∣Fn?1?]
根據有界的隨機變量的Chernoff不等式(∣Xn∣≤1,a.s.|X_n| \le 1,a.s.∣Xn?∣≤1,a.s.),
E[etXn∣Fn?1]≤ec1t2,?c1>0E[e^{tX_n}|\mathcal{F}_{n-1}] \le e^{c_1t^2},\exists c_1>0E[etXn?∣Fn?1?]≤ec1?t2,?c1?>0
所以
EYn≤ec1t2EetSn?1EY_n \le e^{c_1t^2}Ee^{tS_{n-1}}EYn?≤ec1?t2EetSn?1?
這樣就得到了一個可以遞歸的不等式,于是
EYn≤e∑i=1ncint2,?ci>0EY_n \le e^{\sum_{i=1}^n c_int^2},\exists c_i >0EYn?≤e∑i=1n?ci?nt2,?ci?>0
記C=∑i=1nciC=\sum_{i=1}^n c_iC=∑i=1n?ci?,根據Markov不等式,
P(Sn≥λn)≤e?tλnEYn≤eCnt2?tλnP(S_n \ge \lambda \sqrt{n}) \le e^{-t\lambda \sqrt{n}}EY_n \le e^{Cnt^2-t\lambda \sqrt{n}}P(Sn?≥λn?)≤e?tλn?EYn?≤eCnt2?tλn?
我們可以選擇一個ttt來最小化這個上界,考慮
t=λn2Cnt = \frac{\lambda \sqrt{n}}{2Cn}t=2Cnλn??
則最小的上界為
Cnt2?tλn=Cnλ2n4C2n2?λ2n2Cn=e?λ24CCnt^2-t\lambda \sqrt{n}=Cn\frac{\lambda^2n}{4C^2n^2}-\frac{\lambda^2n}{2Cn}=e^{-\frac{\lambda^2}{4C}}Cnt2?tλn?=Cn4C2n2λ2n??2Cnλ2n?=e?4Cλ2?
于是
P(Sn≥λn)≤e?λ24CP(S_n \ge \lambda \sqrt{n}) \le e^{-\frac{\lambda^2}{4C}}P(Sn?≥λn?)≤e?4Cλ2?
對于P(Sn≤?λn)=P(?Sn≥λn)P(S_n \le -\lambda \sqrt{n})=P(-S_n \ge \lambda \sqrt{n})P(Sn?≤?λn?)=P(?Sn?≥λn?)也可以做類似的討論。
評注
Azuma不等式與Bernstein不等式相比,它不需要獨立性的假設,取而代之的是鞅差序列的假設,鞅差序列是在研究非獨立隨機變量序列常用的假設,Azuma不等式的意義在于即使沒有獨立性的假設,對于幾乎必然有界的隨機變量,e?cλ2e^{-c\lambda^2}e?cλ2的尾部概率性質也是成立的。
總結
以上是生活随笔為你收集整理的UA MATH567 高维统计I 概率不等式11 Azuma不等式的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UA MATH563 概率论的数学基础
- 下一篇: [概统]本科二年级 概率论与数理统计 第