本文介紹了 pandas :在 groupby 'date' 中刪除重復項的處理方法,對大家解決問題具有一定的參考價值,需要的朋友們下面隨著小編來一起學習吧!
問題描述
在下面的數據框中,我想消除重復的 cid
值,以便 df.groupby('date').cid.size()
的輸出匹配df.groupby('date').cid.nunique()
的輸出.
In the dataframe below, I would like to eliminate the duplicate cid
values so the output from df.groupby('date').cid.size()
matches the output from df.groupby('date').cid.nunique()
.
我看過這個 post 但它似乎沒有解決問題的可靠方法.
I have looked at this post but it does not seem to have a solid solution to the problem.
df = pd.read_csv('https://raw.githubusercontent.com/108michael/ms_thesis/master/crsp.dime.mpl.df')
df.groupby('date').cid.size()
date
2005 7
2006 237
2007 3610
2008 1318
2009 2664
2010 997
2011 6390
2012 2904
2013 7875
2014 3979
df.groupby('date').cid.nunique()
date
2005 3
2006 10
2007 227
2008 52
2009 142
2010 57
2011 219
2012 99
2013 238
2014 146
Name: cid, dtype: int64
我嘗試過的事情:
df.groupby([df['date']]).drop_duplicates(cols='cid')
給出此錯誤:AttributeError: Cannot access callable attribute 'drop_duplicates' of 'DataFrameGroupBy' 對象,嘗試使用 'apply' 方法
df.groupby(('date').drop_duplicates('cid'))
給出此錯誤:AttributeError: 'str' object has no attribute 'drop_duplicates'
df.groupby([df['date']]).drop_duplicates(cols='cid')
gives this error:AttributeError: Cannot access callable attribute 'drop_duplicates' of 'DataFrameGroupBy' objects, try using the 'apply' method
df.groupby(('date').drop_duplicates('cid'))
gives this error:AttributeError: 'str' object has no attribute 'drop_duplicates'
推薦答案
您不需要 groupby 刪除基于幾列的重復項,您可以指定一個子集:
You don't need groupby to drop duplicates based on a few columns, you can specify a subset instead:
df2 = df.drop_duplicates(["date", "cid"])
df2.groupby('date').cid.size()
Out[99]:
date
2005 3
2006 10
2007 227
2008 52
2009 142
2010 57
2011 219
2012 99
2013 238
2014 146
dtype: int64
這篇關于 pandas :在 groupby 'date' 中刪除重復項的文章就介紹到這了,希望我們推薦的答案對大家有所幫助,也希望大家多多支持html5模板網!
【網站聲明】本站部分內容來源于互聯網,旨在幫助大家更快的解決問題,如果有圖片或者內容侵犯了您的權益,請聯系我們刪除處理,感謝您的支持!