mysql 加权_mysql/stats:加权平均值以突出平均值的差异
這種計算的一個好框架是貝葉斯推理。你有一個以前的人口分布-例如50%的男性,37%的無子女,等等。最好是多變量的:10%的男性無子女,0-17個白人…,但你可以一次一個開始。
在此之前,每個站點都會提供關于人口統計學類別可能性的新信息,然后您會得到一個后驗估計,它會告訴您最后的猜測。使用一些獨立性假設,更新公式如下:
后驗概率=(前驗概率)*(部位似然比)
其中,賠率=p/(1-p),似然比是一個乘數,在訪問站點后修改賠率。它有各種各樣的公式,但在這種情況下,我將使用上面的公式計算一般人口和站點的人口。
例如,對于一個網站,其35%的訪問者處于“20歲以下”年齡組,這代表了20%的人口,網站的可能性比將是
lr=(0.35/0.65)/(0.2/0.8)=2.154
所以訪問這個網站會增加“20歲以下”的幾率2.154倍。
一個100%男性的站點會有一個無限的LR,但是你可能會想限制它,比如說,只使用99.9%男性。一個男性占50%的網站的LR值為1,因此它不會提供任何關于性別分布的信息。
假設你對一個人一無所知——他或她“20歲以下”的幾率是0.2/0.8=0.25。假設第一個站點的這個結果的lr=2.154——現在“20歲以下”的概率變為0.25*(2.154)=0.538(對應于35%的概率)。如果第二個部位有相同的lr,后驗概率為1.16,已經是54%,等等(概率=概率/(1+概率))。最后,您將選擇具有最高后驗概率的類別。
這些計算有很多警告——例如,獨立性的假設可能是錯誤的,但它可以提供一個良好的開始。
總結
以上是生活随笔為你收集整理的mysql 加权_mysql/stats:加权平均值以突出平均值的差异的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 网站关键词挖掘技术
- 下一篇: Installation failed