Python Pandas：如何分组并为组中的所有项目分配一个 id？

Question

提问by UserYmY

I have df:

我有 df：

domain           orgid
csyunshu.com    108299
dshu.com        108299
bbbdshu.com     108299
cwakwakmrg.com  121303
ckonkatsunet.com    121303

I would like to add a new column with replaces domain column with numeric ids per orgid:

我想添加一个新列，用每个 orgid 的数字 ID 替换域列：

domain           orgid   domainid
csyunshu.com    108299      1
dshu.com        108299      2
bbbdshu.com     108299      3
cwakwakmrg.com  121303      1
ckonkatsunet.com 121303     2

I have already tried this line but it does not give the result I want:

我已经尝试过这条线，但它没有给出我想要的结果：

df.groupby('orgid').count['domain'].reset_index()

Can anybody help?

有人可以帮忙吗？

Answer 1

回答by EdChum

You can call rankon the groupbyobject and pass param method='first':

你可以调用rank的groupby对象，并通过PARAM method='first'：

In [61]:
df['domainId'] = df.groupby('orgid')['orgid'].rank(method='first')
df

Out[61]:
             domain   orgid  domainId
0      csyunshu.com  108299         1
1          dshu.com  108299         2
2       bbbdshu.com  108299         3
3    cwakwakmrg.com  121303         1
4  ckonkatsunet.com  121303         2

If you want to overwrite the column you can do:

如果要覆盖该列，可以执行以下操作：

df['domain'] = df.groupby('orgid')['orgid'].rank(method='first')

Answer 2

回答by Shahnawaz Akhtar

You can use LabelEncoder from sklearn.preprocessing like :

您可以使用 sklearn.preprocessing 中的 LabelEncoder ，例如：

df["domain"] = LabelEncoder().fit_transform(df.domain)

Python Pandas：如何分组并为组中的所有项目分配一个 id？

提问by UserYmY

回答by EdChum

回答by Shahnawaz Akhtar

相关推荐

最近更新

标签

Python Pandas：如何分组并为组中的所有项目分配一个 id？

提问by UserYmY

回答by EdChum

回答by Shahnawaz Akhtar

相关推荐

Pandas Dataframe 中 group by 的多重聚合

分区上的聚合 - pandas Dataframe

Pandas - 根据日期将数据帧拆分为多个数据帧？

pandas 情节不会在 Jupyter 中显示

相关推荐

最近更新

标签