TMDB电影数据分析
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?這是關(guān)于TMDB5000條電影數(shù)據(jù)的分析報告
? ? ? ?數(shù)據(jù)來源于Kaggle?https://www.kaggle.com/tmdb/tmdb-movie-metadata
報告分為:
? ? (1)提出問題
?? ?(2)認(rèn)識數(shù)據(jù)
?? ?(3)清洗數(shù)據(jù)
?? ?(4)分析數(shù)據(jù)
? ? (5)總結(jié)
(一)提出問題
???? (1)對電影類型的分析,電影類型主要有哪些,哪些電影類型數(shù)量最多,電影類型隨時間的變化,哪些電影的票房/利潤多,觀眾更喜歡那種類型的電影
???? (2)電影票房與哪些因素相關(guān),電影受歡迎程度的分析
???? (3)UniversalPictures和Paramount Pictures這兩個公司產(chǎn)出電影的情況對比
???? (4)對電影導(dǎo)演,突出關(guān)鍵字,電影時長,電影產(chǎn)出地的情況進(jìn)行分析
???? (5)原創(chuàng)電影和非原創(chuàng)電影的分析
(二)認(rèn)識數(shù)據(jù)
? ? ? ?從https://www.kaggle.com/tmdb/tmdb-movie-metadata 下載數(shù)據(jù)集
? ? ? ?有tmdb_5000_credits.csv和tmdb_5000_movies.csv這兩個數(shù)據(jù)集,描述電影演員相關(guān)信息和每部電影的基本信息
可以看出credits有4803行4列數(shù)據(jù)
可以看出movies有4803行20列數(shù)據(jù)
2.數(shù)據(jù)清洗
(1)格式轉(zhuǎn)化
? ?credits數(shù)據(jù)中,cast、crew都是json的格式,需要將演員、導(dǎo)演讀取出來,以字符串格式顯示
? ?movies數(shù)據(jù)中g(shù)enres、keywords、production_companies、spoken_languages也是json格式,需要轉(zhuǎn)化成字符串
(a).credits? json解析
(b).movies? json解析
(2)合并數(shù)據(jù)
? credits和movies中都有movie_id和title,檢查這兩個字段是否是相同的
可以看出這兩個字段是相同的,將movies的title刪掉
?方法一:直接del DF['column-name']
?方法二:采用drop方法,有下面三種等價的表達(dá)式:
?1. DF= DF.drop('column_name', 1);
?2. DF.drop('column_name',axis=1, inplace=True)
?3. DF.drop(DF.columns[ : ], axis=1,inplace=True)
df中有22個字段,分別為:
? movie_id : TMDB電影標(biāo)識號
? title : 電影名稱
? cast :演員列表
? director :導(dǎo)演
? budget :預(yù)算(美元)
? genres :風(fēng)格列表,電影類型
? homepage :電影首頁的 URL
? id :標(biāo)識號
? original_language :電影語言
? original_title :電影名稱
? overview :劇情摘要
? popularity :在 Movie Database 上的相對頁面查看次數(shù)
? production_companies :制作公司
? production_countries :制作國家
? release_date :上映時間
? revenue :收入
? runtime :電影時長
? spoken_languages :口語
? status :狀態(tài)
? tagline :電影的標(biāo)語
? vote_average :平均評分
? vote_count :評分次數(shù)
(3)字段及缺失值處理
可以看出director、release_date、runtime分別有30、1、2個缺失值,這里只處理release_date、runtime的缺失值
(三)數(shù)據(jù)分析及可視化
1.關(guān)于電影類型的分析
(1)獲取電影類型
可以看出電影的類型主要是這20種
(2)轉(zhuǎn)化日期格式
(3)電影類型與數(shù)量的關(guān)系
(1)分類型判斷每部電影屬于的類型
可以得到如果每行中包含哪個類型的就返回1,否則0
(2)建立包含電影類型和年份的數(shù)據(jù)框
可以看出電影的拍攝數(shù)量是從1992年開始大幅增加的
統(tǒng)計每個類型每年的數(shù)量
電影類型隨時間變化的趨勢(折線圖)
可以看出Drama和War這兩個類型是隨時間波動比較大的,增長較快,現(xiàn)在仍比較熱門
電影類型的數(shù)量關(guān)系(各個類型的總數(shù)量)
各個電影類型的數(shù)量條形圖
可以看出Drama和Comedy是數(shù)量最多的前兩個
各個電影類型的比例餅圖
Drama、Comedy、Thriller、Action這四個類型占了一半多比例,分別為18.9%,14.2%,10.5%,9.5%
(4)電影類型與利潤的關(guān)系
? (1)電影類型與利潤的關(guān)系
電影類型的利潤條形圖
可以看出Animation和Advanture,Fantasy這三個類型的電影是盈利最好的,而Foreign和TV Movie這兩個是會虧損的
(2)觀眾更喜歡哪種類型的電影
電影類型受歡迎的條形圖
可以看出觀眾最喜歡的四中類型是Adventure、Animation、Science Fiction、Fantasy
2.電影票房與哪些因素相關(guān),電影受歡迎程度的分析
(1)每年的票房統(tǒng)計
電影的票房也是從1992開始大幅度增長的
(2)電影預(yù)算與票房的關(guān)系
可以看出票房和預(yù)算是正相關(guān)性的,預(yù)算越高票房也越高,除去一些極值
(3)電影評分與票房的關(guān)系
可以看出評分跟票房的相關(guān)性不是很強(qiáng),評分跟票房大都集中在一個區(qū)域
(4)電影時長與票房的關(guān)系
(5)評分與受歡迎的關(guān)系
評分與受歡迎之間相關(guān)性不是很明顯,但是大部分受歡迎度高的,基本是評分高的
(6)電影時長與受歡迎的關(guān)系
觀眾喜歡的電影時長大多是90-160分鐘
3.Universal Pictures和Paramount Pictures這兩個公司產(chǎn)出電影的情況對比
(1)兩家公司電影數(shù)量對比
這兩個公司拍攝的電影是差不多的
(2)兩家公司的電影歲時間變化的趨勢對比
可以看出隨著時間的推移,Universal Pictures和Paramount Pictures公司的電影發(fā)行量呈現(xiàn)出增長趨勢,尤其是在1992年后增長迅速
(3)兩個公司的利潤對比
4.對電影導(dǎo)演,突出關(guān)鍵字,電影時長,電影產(chǎn)出地的情況進(jìn)行分析
(1)對電影的導(dǎo)演進(jìn)行分析
#direct=df['director'].value_counts()
#direct1=direct[:20]
*導(dǎo)演的拍攝數(shù)
拍攝電影數(shù)最多的四位導(dǎo)演是Steven Spielberg 、Woody Allen 、Martin Scorsese、Clint Eastwood? 分別為27、21、20、20
*評分前20的導(dǎo)演
這些導(dǎo)演的評分基本都差不多的
*票房前20的導(dǎo)演
票房最高的三位導(dǎo)演是Chris Buck、Kyle Balda、Lee Unkrich
(2)關(guān)鍵字分析
可以看出關(guān)鍵字顯示的主要是independent film、woman、murder這些字段
(3)電影時長的分析
可以看出評分較高的電影時長集中于80-150分鐘之間
(4)電影產(chǎn)地分析
可以看出美國是電影產(chǎn)出大國,超過一半比例
5.改編電影與原創(chuàng)電影的分析
(1)改編電影與原創(chuàng)電影數(shù)量對比
可以看出原創(chuàng)電影占絕大部分
(2)原創(chuàng)電影與改編電影預(yù)算、收入、利潤的對比
可以看出改編電影的預(yù)算略高于原創(chuàng)電影,但改編電影的票房收入和利潤遠(yuǎn)遠(yuǎn)高于原創(chuàng)電影
總結(jié)
以上是生活随笔為你收集整理的TMDB电影数据分析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: cleverhans库——FGSM代码实
- 下一篇: matlab小波具体频段,一种小波包分解