用户画像-聚类分析
step1 ? 我們還是要說一下數據源的事情
雖然我從來都秉承著能百度到的東西基本不廢話,但是這張圖我覺得還是有必要貼出來的。這個圖不是我的,原文作者:郭志金。知識產權還是要保護的,大家可以百度一下郭老師關于如何構建用戶畫像的文章找到更加詳細的論述。不多說了。上圖。
這里能就是郭老師說的需要準備好的所有的相關用戶數據。好的,我覺得這些數據對于大家來說并不那么困難吧。所以收集到了之后呢,就開始真正的處理數據了。
step2 數據收集后的處理步驟
第一步:清洗數據
本來我不打算說這個,但是覺得還是有必要提一句,收集到的數據很多都不能直接使用。需要對數據進行編碼和分類,還要去掉異常值和補全缺失值這些。我這里將會用到的分析軟件是跟隨我五六年的SPSS(用了這么多年依舊不是高手)。我就假設這一步大家都做完了。
第二步:因素分析
本來我也不知道為什么要做因素分析。直到我最近看書才了解,給大家解釋一下做因素分析的原因。用戶畫像就是把一堆數據分類,分到同一組的數據所代表的人就是一類。那么聚類就需要考慮把哪些數據拿出來聚類呢?比如說個人收入和家庭總收入。這是兩列數據,最后可能都會決定我是屌絲還是白富美。要把這兩個數據放進去一起聚類嗎?恐怕不是!聚類是不建議把高度相關的數據都扔進去的。為什么?因為高度相關了就基本等于同一個數據了,你把同一個數據放進去兩遍,不就是加重了這個數據在所有數據里的權重了么!這里一些專業統計詞我就不過分解釋了,這次真的可以百度。
知道了為什么要因素分析,就談談因素分析的作用,因素分析就是把N個數據先歸歸類,特別相同的就是一類的了,我們選其中一些數據就可以了。這樣因素分析就可以幫我們把N列數據減少到幾列數據。至于因素分析怎么做,我也不在這里廢話了。有一個神奇的老師叫吳明隆,他有一本SPSS實操,那里手把手教學。各位可以去自行查閱。
第三步:相關分析
我們已經把數據N列減少到重要的幾個了。在開始聚類之前,還要做一件事就是看一下這些數據的相關性。一般我們選擇中等相關的數據。太相關不能用原因見上一條。太不相關了也別放進去了,畢竟個人收入的數據和隔壁老王的體重數據放在一起也沒什么大用。相關分析怎么做也請見吳老師的寶書。
第四步:聚類分析
好的,我們終于說到我們的主角了,聚類分析。我曾記得當初我做的時候一個恩師姐姐建議我,聚類都做一遍。雖然我還不懂她在說什么。但是就我現在的理解,給大家談一談。首先SPSS里有三種聚類方式。見圖。
上面看到啦,這是SPSS里的3中聚類方式。我會首先做一下兩步聚類。為啥呢,因為兩步聚類不需要動腦子。為什么這么說。就是你丟一堆數據進去,你不需要預設你要聚類成幾類。就是你可以不知道到底有幾類啊,看SPSS大大的心情啊。兩步聚類把數據類型分分開就可以了,別把連續的放在類別的里面。就可以了。聚類之后你會得到這樣一個結果。上圖。
醬紫的。具體的解釋和怎么看。建議去看沈浩老師博客的聚類分析,百度一下你值得擁有。然后我們把一些重要程度很低的變量可以試著剔除一些了。這里就是第一次聚類。
然后到了第二次聚類,K均值聚類。第一步已經知道大概的聚類類別了。我這個是聚出了1類。K均值的時候有一個聚類數需要你填寫。你就把兩步聚類里的聚類數填進去就好啦。然后就得到了K均值聚類的結果。我們這樣不斷調試刪除增加變量的原因是為了讓聚類結果更加穩定。
最后的最后,系統聚類。你可以看到一個長得很酷的圖,然后可以看看結構什么的。也是為了確定聚類結果的穩定性。具體操作也自行解決吧。
第五步:判別分析
聚類好了之后,我們是有態度有素質的團隊嘛。就要看看自己聚類出來的結果準不準。就需要判別分析了,把已經聚類好的數據和待驗證的數據放進去看下結果,來評判一下聚類的效果。本來我想上個圖,覺得要保護我司的數據安全。就放棄了。大家百度一下貝葉斯判別,很多效果圖那邊。這里只講步驟。
好啦。最后的結果如果穩定且驗證后效果良好。那你的用戶就真的畫完了。很多人在說每個標簽權重的事情。我個人是這么理解的,看貴司用戶占這些分類的多少比較重要。說的更直接點,加權重給每個畫像這個事情,我暫時還沒有知道要怎么做。如果有牛人用R或者什么統計軟件完爆我,我真的認真的說,請收我為徒。我真的很想要一個老師。為了實現我做最好的用研的夢想。
總結
- 上一篇: ksweb如何安装php5.6_KSWE
- 下一篇: 大转盘H5模板的游戏优点