主成分分析法_数学建模 || 葡萄酒的评价(1)主成分分析法
首先要說一下,這篇文章我在其他的平臺發過,也是本人親自寫的,如果大家覺得眼熟的話放棄輕松,沒有抄襲,主要是因為與我這 “葡萄酒的評價”?題目成系列了,因此在這里再把這個貼出來。
2012 年 A 題葡萄酒的評價,關于評價指標體系的構建,由于變量過多可以使用主成分分析法,對變量進行“降維”處理,使得分析計算結果得到簡化。大家今天先學習方法吧,各種方法介紹全了會專門有一篇講解這些方法在葡萄酒評價題目中的使用。
1
主成分分析法原理
主成分分析法:核心思想是根據原始數據的 n 個變量,重新組合成k個變量,而且這 k 個變量能最大程度的涵蓋原始數據的信息。
依據:某一維的方差越大,其所包含的信息越多,也就是說越重要。轉換坐標系的方法,可以將二維數據降為一維數據,將三維數據降為二維數據。
主成分分析法,可以通過線性變換的方法將多個變量組合成幾個少數的重要變量的多元統計方法。在數學上,這種思想是“降維”。簡單的描述一下計算的過程,假設現在有 20?個變量,通過相關性計算,將 20?個變量通過線性表示的方法簡化成 4 個新變量,而整理出的4個新變量包含了原來 20??個變量的大部分信息。這句話包含了兩個比較重要的點。第一點是整理出出來的是 4 個新變量,也有可能是在 20?個變量中選擇出 4 個比較重要的變量。第二點是包含了原變量的大部分信息。而后就可以使用這 4 個新變量進行打分評價,主成分分析法最重要的作用是用于評價。現在可能就會有這么一個問題,既然 20?個變量都有,為什么不直接使用 20?個量進行評價,而是將20個變量簡化成了4個新變量。這里就涉及到表述信息的重復。最初的20個變量,可能是從研究主體上直接提取到20個原始數據,可能有兩個量之間包含的信息重復,當然也有不同的信息之處。如果第20個變量所展現出來的信息完全可以由其他的19個變量線性表示,那第20個變量的存在完全是沒有意義的。這就是在處理中簡化變量個數的意義。
新的主成分與原始變量具有不可分割的聯系,如下:
1、主成分保留了原始變量絕大多數信息。
2、主成分的個數大大少于原始變量的數目。
3、各個主成分之間互不相關。
4、每個主成分都是原始變量的線性組合。
然后給出一個應用的例子,美國統計學家stone研究國民經濟的發展狀況,他利用1929年—1938年的的數據得到了17個指標變量,包括雇主補貼,公共支出,利息等,通過主成分分析法,將17個變量簡化成了三個新變量,依據自身經濟學的背景知識,將三個每變量分別定名為:總收入,總收入變化量,經濟發展趨勢。這也是主成分分析法需要注意的一個問題,你需要根據背景知識將新變量進行重新命名,這個對于大部分人是很難做到的,也是一個使用受限的一個地方。
2
主成分分析的計算及特點
主成分分析的步驟:
1、初始變量
2、根據初始變量特性選擇使用協方差矩陣還是相關矩陣求主成分。
3、計算協方差矩陣或相關矩陣的特征值和特征向量。
①解特征方程,常用雅可比法求出特征值,并使其按大小順序排列
②分別求出對應于特征值的特征向量
③?計算主成分貢獻率及累計貢獻率
④?計算主成分載荷
⑤?各主成分的得分
4、確定主成分個數
5、對主成分的含義做解釋。
主成分分析的特點:
1、變量間需要有較強相關性,保證能起到很好的降維的效果。
2、新的指標體系無法包含原數據的所有信息。
3、計算前需要進行標準化處理,具體的含義會發生變化,自己進行指標命名時會發生較大的困難。
3
主成分分析的案例分析
一、從將Excel中的數據導入spss
1、啟動spss軟件
2、操作一下步驟
3、注意修改文件類型,找到你的文件
4、屬性修改
5、完成導入
二、主成分分析步驟
1、如下操作,降維
2、將左側的變量導入到右側,修改“描述、提取、得分”三項
3、修改三項
#描述:
#提取,選中比較直觀的碎石圖
#得分,選中得分系數矩陣,并點擊繼續
4、回到初始的界面,點擊確定,開始計算
三、計算結果的保存
1、右擊,選擇導出
2、命名,確定即可
3、在word里可以直接復制分析出來的了
4
主成分分析的計算結果分析
計算結果是很多的圖表,這也是說這是個傻瓜軟件的原因,通過操作得到這些圖表的過程是很簡單的,但是能把這些圖表分析清楚需要你有一定的統計學的知識背景。原始數據如下:
1、相關系數矩陣
相關系數矩陣能表示任意兩個指標之間的關系( spss 中,0.01,它只寫個 .01),比如 GDP 跟 GDP 相關性,自身與自身的相關性是1了;?GDP 與工業增加值相關性為 0.967 ,大于0.9的數,表示相關性程度已經非常強了。
2、總方差解釋
總方差解釋圖表是主成分分析中最重要的一個表格。在這個案例分析匯總,主成分是兩個,第一主成分占比重 72.205% (可以這么理解),第二主成分占比重 12.346% ,這兩個主成分達到 85.551% ,超過了 80% ,可以說用這兩個指標評價各省份的經濟完全可以代替原來的10個指標。碎石圖原理基本相同。
3、系數獲取
系數指的是在獲得兩個主成分后,用 10 個原變量線性表示新的 2 個主變量的過程, spss 軟件給出的“成分得分系數矩陣”中可以直接得到系數。
十個變量的位置大家擺清楚,通過以上表格得到這個線性表示的方程,但是大家一定要清楚,由新求出來的 2 個主成分表示總得分的時候一定記得,利用主成分各自占的比重重新求,而不是原來的簡單的權重,從下邊公式中看的比較清楚,直接看下邊的圖片吧。
4、計算得分
計算的得分過程也是有很多技巧的,有的人用計算器按,有的人用 Excel 計算,有的人直接拿 MATLAB 矩陣相乘,效率也不一樣的,強烈建議大家使用 MATLAB 進行計算,矩陣相乘大家還記得吧,行向量乘以列向量等于位次相同的元素相乘再加和,跟上邊這個公式計算過程一模一樣,建議大家回去試一試。當然用 Excel 計算也是比較方便。
從結果上看,廣東排名第一,江蘇次之。但是天津作為直轄市排名第十,原因可以結合題目背景進行討論,比如人口數量等因素。
大家先把這方法看明白,到最后的時候會綜合的聯系到 “葡萄酒評價” 一題上。
5
資源分享
本次主要有三個要分享的東西。
1、這次案例用到的原始數據。
2、用到的軟件 spss 版本 24,今天的第二篇推文是 spss24 的安裝教程。
3、我自己看過的 spss 的教程,簡單易懂的那種。
鏈接:? https://pan.baidu.com/s/1YuGUnIqbampc8Ag6XV8lfg?
提取碼:? sv8f 復制這段內容后打開百度網盤手機App,操作更方便哦
撰文 / 科研狗Doggy
排版 / 科研狗Doggy
-數學與物理-原創內容? 轉載請聯系后臺
往期精彩回顧
———————————————
經驗?|?數學建模中數據歸一化處理
狗子薦題|?2012 年 建模國賽 A 題
軟件?|?MATLAB2014a軟件及安裝教程
————————————————————————
公眾號ID:maths-physics*****************************************數學建模 || 物理學術競賽軟件安裝 || 資料大禮包? ?
數學、物理的歷史??
認知、邏輯的提升??
總結
以上是生活随笔為你收集整理的主成分分析法_数学建模 || 葡萄酒的评价(1)主成分分析法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python字符串前面去两位_在Pyth
- 下一篇: python编译器如何设置中文_如何使s