Dataset之Rotten Tomatoes:Rotten Tomatoes影评数据集简介、下载、使用方法之详细攻略
Dataset之Rotten Tomatoes:Rotten Tomatoes影評數據集簡介、下載、使用方法之詳細攻略
?
?
?
目錄
Rotten Tomatoes影評數據集簡介
Rotten Tomatoes影評數據集下載
Rotten Tomatoes影評數據集使用方法
?
?
?
?
Rotten Tomatoes影評數據集簡介
? ? ? ?爛番茄(Rotten Tomatoes)網站影評短語數據,對電影進行評價。每個影評可以歸入下面5個類項:
- 不給力(negative),
- 不太給力(somewhat negative),
- 中等(neutral),
- 有點給力(somewhat positive),
- 給力(positive)。
? ? ? 解釋變量不會總是直白的語言,因為影評內容千差萬別,有諷刺的,否定的,以及其他語義的表述,語義并不直白,這些都會讓分類充滿挑戰。
? ? ? Sentiment是響應變量,0是不給力(negative),4是給力(positive),其他以此類推。Phrase列是影評的內容。影評中每句話都被分割成一行。我們不需要考慮PhraseId列和SentenceId列。
? ? ?通過下邊的代碼,可以看出,近51%都是評價為2中等(neutral)的電影。可見,在這個問題里,準確率不是一個有信息量的評價指標,因為即使很爛的分類器預測出中等水平的結果,其準確率也是51%。3有點給力(somewhat positive)的電影占21%, 4給力(positive)的電影占6%,共占27%。剩下的21%就是不給力(negative),不太給力(somewhat negative)的電影。
?
Rotten Tomatoes影評數據集下載
Rotten Tomatoes影評數據集下載
?
?
Rotten Tomatoes影評數據集使用方法
import zipfile # 壓縮節省空間 z = zipfile.ZipFile('mlslpic/train.zip') df = pd.read_csv(z.open(z.namelist()[0]), header=0, delimiter='\t')df.head() df.count() ------------------------- PhraseId 156060 SentenceId 156060 Phrase 156060 Sentiment 156060 dtype: int64df.Phrase.head(10) df.Sentiment.describe() ----------------------- count 156060.000000 mean 2.063578 std 0.893832 min 0.000000 25% 2.000000 50% 2.000000 75% 3.000000 max 4.000000 Name: Sentiment, dtype: float64df.Sentiment.value_counts() ----------------------- 2 79582 3 32927 1 27273 4 9206 0 7072 dtype: int64df.Sentiment.value_counts()/df.Sentiment.count() 2 0.509945 3 0.210989 1 0.174760 4 0.058990 0 0.045316 dtype: float64可以看出,近51%都是評價為2中等(neutral)的電影。可見,在這個問題里,準確率不是一個有信息量的評價指標, 因為即使很爛的分類器預測出中等水平的結果,其準確率也是51%。3有點給力(somewhat positive)的電影占21%, 4給力(positive)的電影占6%,共占27%。剩下的21%就是不給力(negative),不太給力(somewhat negative)的電影。?
?
?
總結
以上是生活随笔為你收集整理的Dataset之Rotten Tomatoes:Rotten Tomatoes影评数据集简介、下载、使用方法之详细攻略的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ML:人工智能之机器学习ML解决实际应用
- 下一篇: 成功解决ValueError: Foun