请教个问题,我想把数据中名字的重复值删掉,只保留年纪大的怎么整呢?
點擊上方“Python爬蟲與數(shù)據(jù)挖掘”,進行關(guān)注
回復“書籍”即可獲贈Python從入門到進階共10本電子書
今
日
雞
湯
三年謫宦此棲遲,萬古惟留楚客悲。
大家好,我是皮皮。
一、前言
國慶期間在Python白銀交流群【謝峰】問了一個Pandas處理的問題,提問截圖如下:
代碼如下:
import?pandas?as?pd data?=?[{'name':?'小明',?'age':?18},?{'name':?'小張',?'age':?20},?{'name':?'小明',?'age':?20},?{'name':?'小明',?'age':?38}] data?=?pd.DataFrame(data) #?print(data) #?刪除名字重復的,只保留年齡最大的那個 data?=?data.drop_duplicates('name',?inplace=False) print(data)二、實現(xiàn)過程
這里【甯同學】給了一個思路,先排個序,再刪,并且給出了如下代碼:
import?pandas?as?pd data?=?[{'name':?'小明',?'age':?18},?{'name':?'小張',?'age':?20},?{'name':?'小明',?'age':?20},?{'name':?'小明',?'age':?38}] data?=?pd.DataFrame(data) #?print(data) #?刪除名字重復的,只保留年齡最大的那個 data?=?data.sort_values(by="age",?ascending=False).drop_duplicates('name',?inplace=False) #?data?=?data.drop_duplicates('name',?inplace=False) print(data)順利地解決了粉絲的問題。下面是他自己整理出來的,也一起分享給大家了。和上面的代碼沒太大區(qū)別,只是省去了參數(shù)名,硬要說就是默認參數(shù)省了和沒省的區(qū)別。
import?pandas?as?pd data?=?[{'name':?'小明',?'age':?18},?{'name':?'小張',?'age':?20},?{'name':?'小明',?'age':?20},?{'name':?'小明',?'age':?38}] data?=?pd.DataFrame(data) #?print(data) #?刪除名字重復的,只保留年齡最大的那個 data?=?data.sort_values('age',?ascending=False).drop_duplicates(subset=['name'],?keep='first') print(data) data?=?data.sort_values(by='age',?ascending=False).drop_duplicates('name',?inplace=False) print(data)后來粉絲自己還拓展了下,這里拿出來跟大家一起分享。
一、sort_values()函數(shù)用途
pandas中的sort_values()函數(shù)原理類似于SQL中的order by,可以將數(shù)據(jù)集依照某個字段中的數(shù)據(jù)進行排序,該函數(shù)即可根據(jù)指定列數(shù)據(jù)也可根據(jù)指定行的數(shù)據(jù)排序。
二、sort_values()函數(shù)的具體參數(shù)
用法:DataFrame.sort_values(by=‘##’,axis=0,ascending=True, inplace=False, na_position=‘last’)
參數(shù)說明
| by | 指定列名(axis=0或’index’)或索引值(axis=1或’columns’) |
| axis | 若axis=0或’index’,則按照指定列中數(shù)據(jù)大小排序;若axis=1或’columns’,則按照指定索引中數(shù)據(jù)大小排序,默認axis=0 |
| ascending | 是否按指定列的數(shù)組升序排列,默認為True,即升序排列 |
| inplace | 是否用排序后的數(shù)據(jù)集替換原來的數(shù)據(jù),默認為False,即不替換 |
| na_position | {‘first’,‘last’},設(shè)定缺失值的顯示位置 |
三、例子
單條件根據(jù)排序刪除重復值
import?pandas?as?pd data?=?[{'name':?'小明',?'age':?18,?'high':?155},?{'name':?'小張',?'age':?20,?'high':?145},?{'name':?'小明',?'age':?38,?'high':?175},?{'name':?'小明',?'age':?38,?'high':?195}] data?=?pd.DataFrame(data)#?單條件刪除(名字重復的,只保留年齡最大的那個) a?=?data.sort_values('age',?ascending=False).drop_duplicates('name') print(a)多條件根據(jù)排序刪除重復值
import?pandas?as?pd data?=?[{'name':?'小明',?'age':?18,?'high':?155},?{'name':?'小張',?'age':?20,?'high':?145},?{'name':?'小明',?'age':?38,?'high':?175},?{'name':?'小明',?'age':?38,?'high':?195}] data?=?pd.DataFrame(data)#?多條件刪除(名字一樣,根據(jù)年齡刪除,保留最大的,年齡一樣,再根據(jù)身高刪除,保留最大的) b?=?data.sort_values(['age',?'high'],?ascending=False).drop_duplicates('name') print(b)可以說學完這里,sort_values()的用法算是基本上吃透了。
三、總結(jié)
大家好,我是皮皮。這篇文章主要盤點了一個Pandas處理的問題,文中針對該問題,給出了具體的解析和代碼實現(xiàn),幫助粉絲順利解決了問題。
最后感謝粉絲【謝峰】提問,感謝【甯同學】、【論草莓如何成為凍干莓】給出的思路和代碼解析,感謝【dcpeng】、【此類生物】、【凡人不煩人】等人參與學習交流。
大家在學習過程中如果有遇到問題,歡迎隨時聯(lián)系我解決(我的微信:pdcfighting),應粉絲要求,我創(chuàng)建了一些高質(zhì)量的Python付費學習交流群和付費接單群,歡迎大家加入我的Python學習交流群和接單群!
小伙伴們,快快用實踐一下吧!如果在學習過程中,有遇到任何問題,歡迎加我好友,我拉你進Python學習交流群共同探討學習。
-------------------?End?-------------------
往期精彩文章推薦:
盤點一個網(wǎng)絡(luò)爬蟲POST請求參數(shù)構(gòu)造的問題
盤點一個Python基礎(chǔ)中循環(huán)判斷遇到一個小問題
重裝pycharm和Python環(huán)境以后,以前的文件selenium獲取不到元素了?
不使用內(nèi)置函數(shù)的情況下,如何使用Python實現(xiàn)求平均值、最大值和最小值?
歡迎大家點贊,留言,轉(zhuǎn)發(fā),轉(zhuǎn)載,感謝大家的相伴與支持
想加入Python學習群請在后臺回復【入群】
萬水千山總是情,點個【在看】行不行
/今日留言主題/
隨便說一兩句吧~~
總結(jié)
以上是生活随笔為你收集整理的请教个问题,我想把数据中名字的重复值删掉,只保留年纪大的怎么整呢?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: echart饼图标签重叠_解决echar
- 下一篇: kprobe与perf probe使用简