pandas 熊猫密集排名

Question

提问by Keithx

I'm dealing with pandas dataframe and have a frame like this:

我正在处理Pandas数据框并有一个这样的框架：

I want to make an equialent to DENSE_RANK () over (order by year) function. to make an additional column like this:

我想使 DENSE_RANK() over (order by year) 函数等效。制作一个这样的附加列：

    Year Value Rank
    2012  10    1
    2013  20    2
    2013  25    2
    2014  30    3

How can it be done in pandas?

如何在Pandas中做到这一点？

Thanks!

谢谢！

Answer 1

回答by piRSquared

Use pd.Series.rankwith method='dense'

使用pd.Series.rank与method='dense'

df['Rank'] = df.Year.rank(method='dense').astype(int)

df

Answer 2

回答by jezrael

The fastest solution is factorize:

最快的解决方案是factorize：

df['Rank'] = pd.factorize(df.Year)[0] + 1

Timings:

时间：

#len(df)=40k
df = pd.concat([df]*10000).reset_index(drop=True)

In [13]: %timeit df['Rank'] = df.Year.rank(method='dense').astype(int)
1000 loops, best of 3: 1.55 ms per loop

In [14]: %timeit df['Rank1'] = df.Year.astype('category').cat.codes + 1
1000 loops, best of 3: 1.22 ms per loop

In [15]: %timeit df['Rank2'] = pd.factorize(df.Year)[0] + 1
1000 loops, best of 3: 737 μs per loop

Answer 3

回答by Alexander

You can convert the year to categoricals and then take their codes (adding one because they are zero indexed and you wanted the initial value to start with one per your example).

您可以将年份转换为分类，然后获取它们的代码（添加一个，因为它们的索引为零，并且您希望每个示例的初始值都从一个开始）。

df['Rank'] = df.Year.astype('category').cat.codes + 1

>>> df
   Year  Value  Rank
0  2012     10     1
1  2013     20     2
2  2013     25     2
3  2014     30     3

Answer 4

回答by ALollz

`Groupby.ngroup`

Will sort keys by default so smaller years get labeled lower. Can set sort=Falseto rank groups based on order of occurrence.

默认情况下会对键进行排序，以便较小的年份标记为较低。可以设置sort=False根据出现顺序对组进行排名。

df['Rank'] = df.groupby('Year', sort=True).ngroup()+1

`np.unique`

Also sorts, so use return_inverseto rank the smaller values lowest.

也排序，因此用于return_inverse将较小的值排名最低。

df['Rank'] = np.unique(df['Year'], return_inverse=True)[1]+1

pandas 熊猫密集排名

提问by Keithx

回答by piRSquared

回答by jezrael

回答by Alexander

回答by ALollz

`Groupby.ngroup`

`Groupby.ngroup`

`np.unique`

`np.unique`

相关推荐

最近更新

标签

pandas 熊猫密集排名

提问by Keithx

回答by piRSquared

回答by jezrael

回答by Alexander

回答by ALollz

Groupby.ngroup

Groupby.ngroup

np.unique

np.unique

相关推荐

将函数应用于 Pandas Python 中的每一行时发生数据转换错误

用正则表达式替换引号、逗号、撇号 - python/pandas

Pandas DataFrame 按分类列排序，但按特定类排序

如何拆分“数字”以分隔 Pandas DataFrame 中的列

相关推荐

最近更新

标签

`Groupby.ngroup`

`Groupby.ngroup`

`np.unique`

`np.unique`