Kaggle TMDB电影数据分析项目实战
分析步驟
- Kaggle TMDB電影數據分析項目實戰
- 數據集
- 分析結果
 
Kaggle TMDB電影數據分析項目實戰
注:該項目為博主第一次數據分析項目,代碼部分參考了:這篇文章。
 希望大家支持一下原作者。從下一篇開始將全部為原創項目。請大家多多支持。
數據集
在分析之前,首先要將拿到的數據處理成可以分析的格式。本項目使用kaggle的開源數據集:TMDB 5000 Movie Dataset 它是kaggle官方從IMDB的數據中截取出來供研究者們發掘究竟是什么元素決定著電影業的盈利與虧損的。
 數據集總共由兩個文件組成:tmdb_5000_credits.csv和tmdb_5000_movies.csv。
分析結果
第一個文件包含了電影的名稱、演員陣容以及拍攝隊伍。后者則是其他的內容。通過Python分析過后,我們得到了:不同電影類型的數量隨時間變化的曲線圖以及1916-2017年間不同類型電影數量的統計圖:
 
 從兩個圖可知自電影產業興起以來Drama(劇情片)一直是被制作最多的電影類型,緊隨其上的還有Comedy(喜劇片)、Thriller(驚悚片)以及Action(動作片)。
之后還可以分析每種類型電影的收益,因為雖然劇情片的數量要占據第一,但是一般他們都不是最盈利的片種:
 
 由圖可知我們的常識是正確的,劇情片雖然數量可觀,但觀眾們更愿意為冒險、動作這類的電影買賬。
接下來我們可以分析究竟是什么因素影響著電影的收益呢,畢竟這個問題的答案也是數據集被創造的原因。我們可以利用pandas提供的corr方法輸出數據集的相關系數矩陣,并查看與利潤最相關的幾個特征:
| vote_count | 0.781487 | 
| budget | 0.730823 | 
| popularity | 0.644724 | 
| runtime | 0.251201 | 
| vote_average | 0.197150 | 
| release_year | 0.090074 | 
| id | -0.050425 | 
可知預算是和盈利最相關的特征了。那么我們可以通過繪制散點圖來直觀的看到預算和盈利的線性相關性:
 
 接下來我們還可以分析這幾年的原創電影與改編電影的數量變化:
 
 
 那么電影的盈利也有可能和發行它的國家有關系。我們都知道全球最龐大的電影產業就是美國的好萊塢了。那么各個國家發行的電影數量在這么多年里的占比是什么樣的呢:
 除了國家外,可能和企業也有關系:
 
 那么光把數據輸出成python還不夠美觀,而且也沒法利用,所以我們利用pandas提供的方法,將其導入到excel中,再通過ppt調用excel的數據:
 首先將數據置入excel(運行以下代碼可能需要xlrd、xlwt或openpyxl。請讀者自行嘗試。)
置入后,就可以通過excel畫圖表了。最后在PPT上的成效如下所示:
 
 
 
 
 
 
 
 
總結
以上是生活随笔為你收集整理的Kaggle TMDB电影数据分析项目实战的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: VS Code:4个中文乱码问题及解决方
- 下一篇: 【java】输入输出流
