UA MATH567 高维统计I 概率不等式4 亚高斯分布
UA MATH567 高維統(tǒng)計I 概率不等式4 亞高斯分布
上一講我們介紹了Hoeffding不等式與Chernoff不等式,這兩個不等式的共性是它們的上界關于ttt的遞減階數(shù)都是e?ct2e^{-ct^2}e?ct2,它們具有非常好的性質(zhì),這一講我們試圖將這種尾部概率性質(zhì)的分布抽象化,并推導出一些更普遍的結(jié)果,我們稱這些結(jié)果為亞高斯性 (sub-Gaussian property),K1,?,K5K_1,\cdots,K_5K1?,?,K5?指的是一些常數(shù)。
并且稱滿足這五個等價條件中任一條的分布為亞高斯分布 (sub-Gaussian distribution)。下面我們來簡單證明一下它們的等價性。另外就是第一個和第四個中的2并不一定是非得是2,是任何一個大于1的常數(shù)就可以。
1推2
假設性質(zhì)1成立,取K1=1K_1=1K1?=1(即使K1=≠1K_1 =\ne 1K1?=?=1,我們也可以考慮對X/K1X/K_1X/K1?進行分析),因為期望等于生存函數(shù)的積分,于是
E∣X∣p=∫0∞P(∣X∣p≥u)du=∫0∞P(∣X∣p≥tp)ptp?1dtE|X|^p = \int_0^{\infty}P(|X|^p \ge u)du = \int_0^{\infty}P(|X|^p \ge t^p)pt^{p-1}dtE∣X∣p=∫0∞?P(∣X∣p≥u)du=∫0∞?P(∣X∣p≥tp)ptp?1dt
第二個等號是用的積分換元,u=tpu=t^pu=tp,根據(jù)性質(zhì)1,
P(∣X∣p≥tp)=P(∣X∣≥t)≤2exp?(?t2),?t≥0P(|X|^p \ge t^p)=P(|X| \ge t) \le 2\exp(-t^2),\forall t \ge 0P(∣X∣p≥tp)=P(∣X∣≥t)≤2exp(?t2),?t≥0
于是
∫0∞P(∣X∣p≥tp)ptp?1dt≤∫0∞2e?t2ptp?1dt\int_0^{\infty}P(|X|^p \ge t^p)pt^{p-1}dt \le \int_0^{\infty}2e^{-t^2}pt^{p-1}dt∫0∞?P(∣X∣p≥tp)ptp?1dt≤∫0∞?2e?t2ptp?1dt
右邊這個積分可以通過湊Gamma函數(shù)積出來,
∫0∞2e?t2ptp?1dt=p∫(t2)p2?1e?t2dt2=pΓ(p/2)\int_0^{\infty}2e^{-t^2}pt^{p-1}dt=p\int (t^2)^{\frac{p}{2}-1}e^{-t^2}dt^2=p\Gamma(p/2)∫0∞?2e?t2ptp?1dt=p∫(t2)2p??1e?t2dt2=pΓ(p/2)
根據(jù)Gamma函數(shù)的上界,當x≥1/2x \ge 1/2x≥1/2時,Γ(x)≤3xx\Gamma(x) \le 3x^xΓ(x)≤3xx,
Γ(p/2)≤3p(p/2)p/2\Gamma(p/2) \le 3p(p/2)^{p/2}Γ(p/2)≤3p(p/2)p/2
因此
∥X∥Lp=(E∣X∣p)1/p≤(3p)1/pp/2≤3p\left\| X \right\|_{L^p}=(E|X|^p)^{1/p} \le(3p)^{1/p}\sqrt{p/2} \le 3\sqrt{p}∥X∥Lp?=(E∣X∣p)1/p≤(3p)1/pp/2?≤3p?也就是比較合適的K2K_2K2?的取值是K2≤3K_2 \le 3K2?≤3。
2推3
假設性質(zhì)2成立,不妨取K2=1K_2=1K2?=1,考慮Taylor展開,
Eexp?(λ2X2)=E[1+∑p=1∞(λ2X2)pp!]=1+∑p=1∞λ2pEX2pp!E\exp(\lambda^2X^2)=E \left[1+\sum_{p=1}^{\infty} \frac{(\lambda^2X^2)^p}{p!} \right] = 1+ \sum_{p=1}^{\infty} \frac{\lambda^{2p}EX^{2p}}{p!}Eexp(λ2X2)=E[1+p=1∑∞?p!(λ2X2)p?]=1+p=1∑∞?p!λ2pEX2p?
性質(zhì)2說明
EX2p≤(2p)pEX^{2p} \le (2p)^pEX2p≤(2p)p
根據(jù)Stirling公式,
p!≥(p/e)pp! \ge (p/e)^pp!≥(p/e)p
所以
Eexp?(λ2X2)≤1+∑p=1∞(2λ2p)p(p/e)p=∑p=0∞(2eλ2)p=11?2eλ2E\exp(\lambda^2X^2) \le1+ \sum_{p=1}^{\infty} \frac{(2\lambda^2p)^p}{(p/e)^p}=\sum_{p=0}^{\infty}(2e\lambda^2)^p=\frac{1}{1-2e\lambda^2}Eexp(λ2X2)≤1+p=1∑∞?(p/e)p(2λ2p)p?=p=0∑∞?(2eλ2)p=1?2eλ21?
上式當且僅當2eλ2<12e\lambda^2<12eλ2<1時收斂。根據(jù)不等式
11?x≤e2x,?x∈[0,1/2]\frac{1}{1-x} \le e^{2x},\forall x \in [0,1/2]1?x1?≤e2x,?x∈[0,1/2]
我們可以進一步得到
Eexp?(λ2X2)≤e4eλ2,?∣λ∣≤12eE\exp(\lambda^2X^2) \le e^{4e\lambda^2},\forall |\lambda| \le \frac{1}{2\sqrt{e}}Eexp(λ2X2)≤e4eλ2,?∣λ∣≤2e?1?
也就是說性質(zhì)3在K3=2eK_3 =2\sqrt{e}K3?=2e?時成立。
3推4
假設性質(zhì)3成立,取K3=1K_3=1K3?=1,則
Eeλ2X2≤eλ2,?∣λ∣≤1Ee^{\lambda^2X^2} \le e^{\lambda^2},\forall |\lambda| \le 1Eeλ2X2≤eλ2,?∣λ∣≤1
取λ=1/2\lambda=1/\sqrt{2}λ=1/2?,則
EeX2/2≤e1/2<2Ee^{X^2/2} \le e^{1/2}<2EeX2/2≤e1/2<2
也就是說性質(zhì)4對K4=2K_4=\sqrt{2}K4?=2?成立。
4推1
假設性質(zhì)4成立,取K4=1K_4=1K4?=1,根據(jù)Markov不等式,
P(∣X∣≥t)=P(eX2≥et2)≤e?t2EeX2≤2e?t2P(|X|\ge t) = P(e^{X^2} \ge e^{t^2}) \le e^{-t^2}Ee^{X^2} \le 2e^{-t^2}P(∣X∣≥t)=P(eX2≥et2)≤e?t2EeX2≤2e?t2
因此K1=1K_1=1K1?=1性質(zhì)1成立。
假設XXX零均值。
3推5
假設性質(zhì)3成立,取K3=1K_3=1K3?=1,則
Eeλ2X2≤eλ2,?∣λ∣≤1Ee^{\lambda^2X^2} \le e^{\lambda^2},\forall |\lambda| \le 1Eeλ2X2≤eλ2,?∣λ∣≤1
因為性質(zhì)5是對任意λ\lambdaλ都成立的,但性質(zhì)3對λ\lambdaλ的取值有限制,于是我們做分類討論。
Case 1: ∣λ∣≤1|\lambda| \le 1∣λ∣≤1,根據(jù)不等式
ex≤x+ex2,?x∈Re^x \le x+e^{x^2},\forall x \in \mathbb{R}ex≤x+ex2,?x∈R
我們可以估計
Eeλx≤E(λX+eλ2X2)=Eeλ2X2≤eλ2Ee^{\lambda x} \le E(\lambda X+e^{\lambda^2X^2})=Ee^{\lambda^2X^2} \le e^{\lambda^2}Eeλx≤E(λX+eλ2X2)=Eeλ2X2≤eλ2
Case 2: ∣λ∣>1|\lambda|>1∣λ∣>1,根據(jù)不等式
2λx≤λ2+x2,?x∈R2\lambda x \le \lambda^2+x^2,\forall x \in \mathbb{R}2λx≤λ2+x2,?x∈R
我們可以估計
Eeλx≤Eeλ2+X22=eλ22EeX22≤eλ22e12≤eλ22eλ22=eλ2Ee^{\lambda x} \le Ee^{\frac{\lambda^2+X^2}{2}}=e^{\frac{\lambda^2}{2}}Ee^{\frac{X^2}{2}}\le e^{\frac{\lambda^2}{2}}e^{\frac{1}{2}} \le e^{\frac{\lambda^2}{2}}e^{\frac{\lambda^2}{2}}=e^{\lambda^2}Eeλx≤Ee2λ2+X2?=e2λ2?Ee2X2?≤e2λ2?e21?≤e2λ2?e2λ2?=eλ2
綜上,性質(zhì)5對K5=1K_5=1K5?=1成立。
5推1
假設性質(zhì)5成立,取K5=1K_5=1K5?=1,考慮
P(∣X∣≥t)=P(X≥t)+P(X≤?t)=P(eλX≥eλt)+P(e?λX≥eλt)P(|X| \ge t) = P(X \ge t)+P(X \le -t) \\ = P(e^{\lambda X} \ge e^{\lambda t})+P(e^{-\lambda X} \ge e^{\lambda t})P(∣X∣≥t)=P(X≥t)+P(X≤?t)=P(eλX≥eλt)+P(e?λX≥eλt)
先考慮前半個概率,根據(jù)Markov不等式,
P(eλX≥eλt)≤e?λtEeλX≤e?λteλ2=e?t2/4(λ=t/2)P(e^{\lambda X} \ge e^{\lambda t})\le e^{-\lambda t}Ee^{\lambda X} \le e^{-\lambda t}e^{\lambda^2} =e^{-t^2/4} (\lambda = t/2)P(eλX≥eλt)≤e?λtEeλX≤e?λteλ2=e?t2/4(λ=t/2)
然后考慮后半個概率,同樣根據(jù)Markov不等式,我們可以得到
P(e?λX≥eλt)≤e?t2/4P(e^{-\lambda X} \ge e^{\lambda t}) \le e^{-t^2/4}P(e?λX≥eλt)≤e?t2/4
這樣我們就說明了K1=2K_1=2K1?=2時性質(zhì)1成立。
現(xiàn)在我們就完成了所有亞高斯性等價的證明,但大家應該也發(fā)現(xiàn)了,每一條亞高斯性都有一個常數(shù),不同的常數(shù)可以有不同的取值,每次使用性質(zhì)前還需要選取一下常數(shù)的值,于是我們不由得發(fā)問,有沒有一種統(tǒng)一亞高斯性中常數(shù)的方法?
這就要回到上一講的定義了,亞高斯范數(shù)(sub-Gaussian norm):
∥X∥ψ2=inf?{t>0:EeX2/t2≤2}\left\|X \right\|_{\psi_2} = \inf\{t>0:Ee^{X^2/t^2} \le 2\}∥X∥ψ2??=inf{t>0:EeX2/t2≤2}就是能夠統(tǒng)一亞高斯性中常數(shù)的結(jié)構(gòu),后續(xù)會介紹為什么要這樣定義亞高斯范數(shù),因為它的本質(zhì)是一種Orlicz范數(shù)。我們已經(jīng)證明了亞高斯范數(shù)的確是一個范數(shù),下面我們用幾個例子說明如何計算隨機變量的亞高斯范數(shù)。
例 正態(tài)分布
假設X~N(0,σ)X \sim N(0,\sigma)X~N(0,σ),則∥X∥ψ2=83σ\left\|X \right\|_{\psi_2}=\sqrt{\frac{8}{3}}\sigma∥X∥ψ2??=38??σ
如果σ=1\sigma=1σ=1,我們直接計算
EeX2/t2=∫?∞∞ex2t212πe?x22dx=∫?∞∞12πex2t2?x22dxEe^{X^2/t^2} = \int_{-\infty}^{\infty} e^{\frac{x^2}{t^2}} \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}dx= \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}}e^{\frac{x^2}{t^2}-\frac{x^2}{2}}dx EeX2/t2=∫?∞∞?et2x2?2π?1?e?2x2?dx=∫?∞∞?2π?1?et2x2??2x2?dx
顯然我們可以通過湊正態(tài)分布的概率密度的方法做積分,
ex2t2?x22=e?x22[t2/(t2?2)]e^{\frac{x^2}{t^2}-\frac{x^2}{2}}=e^{-\frac{x^2}{2[t^2/(t^2-2)]}}et2x2??2x2?=e?2[t2/(t2?2)]x2?
這是正態(tài)分布N(0,t2t2?2)N(0,\sqrt{\frac{t^2}{t^2-2}})N(0,t2?2t2??)的密度核,于是
∫?∞∞12πex2t2?x22dx=t2t2?2∫?∞∞12πt2t2?2ex2t2?x22dx=t2t2?2\int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}}e^{\frac{x^2}{t^2}-\frac{x^2}{2}}dx \\=\sqrt{\frac{t^2}{t^2-2}}\int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}\sqrt{\frac{t^2}{t^2-2}}}e^{\frac{x^2}{t^2}-\frac{x^2}{2}}dx = \sqrt{\frac{t^2}{t^2-2}}∫?∞∞?2π?1?et2x2??2x2?dx=t2?2t2??∫?∞∞?2π?t2?2t2??1?et2x2??2x2?dx=t2?2t2??
考慮
t2t2?2≤2?∣t∣≥83\sqrt{\frac{t^2}{t^2-2}} \le 2 \Rightarrow |t| \ge \sqrt{\frac{8}{3}}t2?2t2??≤2?∣t∣≥38??
因此∥X∥ψ2=83\left\|X \right\|_{\psi_2}=\sqrt{\frac{8}{3}}∥X∥ψ2??=38??,如果σ≠1\sigma \ne 1σ?=1,操作方法與之類似。
例 對稱Bernoulli分布
假設XXX服從對稱Bernoulli分布,P(X=1)=1/2,P(X=?1)=1/2P(X=1)=1/2,P(X=-1)=1/2P(X=1)=1/2,P(X=?1)=1/2,則
EeX2/t2=12e1/t2+12e1/t2=e1/t2≤2?∣t∣≥1/ln?2Ee^{X^2/t^2}=\frac{1}{2}e^{1/t^2}+\frac{1}{2}e^{1/t^2} = e^{1/t^2} \le 2 \Rightarrow |t| \ge 1/\sqrt{\ln 2}EeX2/t2=21?e1/t2+21?e1/t2=e1/t2≤2?∣t∣≥1/ln2?
于是∥X∥ψ2=1/ln?2\left\| X \right\|_{\psi_2}=1/\sqrt{\ln 2}∥X∥ψ2??=1/ln2?
例 有界的分布
假設X2≤∥X∥∞2=(max?X)2,a.s.X^2 \le \left\| X \right\|_{\infty}^2 = (\max X)^2,a.s.X2≤∥X∥∞2?=(maxX)2,a.s.,則
EeX2/t2≤Ee∥X∥∞2/t2≤2?∣t∣≥∥X∥∞/ln?2Ee^{X^2/t^2} \le Ee^{\left\| X \right\|_{\infty}^2/t^2} \le 2 \Rightarrow |t| \ge \left\| X \right\|_{\infty}/\sqrt{\ln 2}EeX2/t2≤Ee∥X∥∞2?/t2≤2?∣t∣≥∥X∥∞?/ln2?
于是∥X∥ψ2=∥X∥∞/ln?2\left\| X \right\|_{\psi_2}=\left\| X \right\|_{\infty}/\sqrt{\ln 2}∥X∥ψ2??=∥X∥∞?/ln2?。
前兩個例子介紹了準確計算亞高斯范數(shù)的方法,如果EeX2/t2Ee^{X^2/t^2}EeX2/t2關于ttt的表達式可以明確寫出來,我們就可以通過最小化ttt計算亞高斯范數(shù);第三個例子介紹了當EeX2/t2Ee^{X^2/t^2}EeX2/t2的表達式無法求出來的時候,可以通過找EeX2/t2Ee^{X^2/t^2}EeX2/t2的上界來估計亞高斯范數(shù)。
總結(jié)
以上是生活随笔為你收集整理的UA MATH567 高维统计I 概率不等式4 亚高斯分布的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UA MATH563 概率论的数学基础
- 下一篇: Paper Review: Bayesi