python用pandas提取行列_python- pandas 不删除符合条件的行和列
我正在嘗試建立一個回歸模型,以便根據出現的單詞來預測收視率(1-5)(回歸本身并不一定表現良好,更多的是關于所采用的方法).
我使用以下代碼創建了一個詞頻矩陣:
bow = df.Review2.str.split().apply(pd.Series.value_counts)
看起來像這樣:
我現在有興趣刪除在整個評論中很少出現的列(單詞).此外,我只想迭代不具有NaN的Rating值的評論(行).
這是我的嘗試:
# Delete row if Rating less than 1
for index, row in df.iterrows():
if (df.Rating[index] < 1):
bow.drop(bow.index[index], axis=0, inplace = True)
# Delete column if word occurs less than 50 times
sum1 = bow.sum(axis=0)
cntr = 0
for i in sum1:
if (i < 50):
bow.drop(bow.index[cntr], axis=1, inplace = True)
cntr += 1
這似乎沒有用,因為它使單詞只出現一次.
編輯:
這是我的稀疏 dataframe ,包含單詞的出現.
Col->話;
行->句子(項目的評論)(我有1.5k項,因此有1.5k行)
hi this are just some random words I don t ... zing zingy zingzang
0 1.0 NaN 1.0 1.0 1.0 NaN NaN NaN NaN NaN ... NaN NaN NaN
1 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN
2 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN
3 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN
4 NaN NaN NaN NaN NaN NaN NaN NaN NaN 1.0 ... NaN NaN NaN
評分是我原始數據幀中的一列,其中包含[1,5]范圍內的整數或NaN
總結
以上是生活随笔為你收集整理的python用pandas提取行列_python- pandas 不删除符合条件的行和列的全部內容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: mysql 5.6.37 winx64_
 - 下一篇: CHERRY 预热摩动核联名款键盘,套装