Pandas DataFrame 按分类列排序，但按特定类排序

Question

提问by elzurdo

I would like to select the top entries in a Pandas dataframe base on the entries of a specific column by using df_selected = df_targets.head(N).

我想根据特定列的条目选择 Pandas 数据框中的顶部条目，方法是使用df_selected = df_targets.head(N).

Each entry has a targetvalue (by order of importance):

每个条目都有一个target值（按重要性排序）：

Likely Supporter, GOTV, Persuasion, Persuasion+GOTV

Unfortunately if I do

不幸的是，如果我这样做

df_targets = df_targets.sort("target")

the ordering will be alphabetical (GOTV,Likely Supporter, ...).

排序将按字母顺序 ( GOTV, Likely Supporter, ...)。

I was hoping for a keyword like list_orderingas in:

我希望有一个像这样的关键字list_ordering：

my_list = ["Likely Supporter", "GOTV", "Persuasion", "Persuasion+GOTV"] 
df_targets = df_targets.sort("target", list_ordering=my_list)

To deal with this issue I create a dictionary:

为了解决这个问题，我创建了一个字典：

dict_targets = OrderedDict()
dict_targets["Likely Supporter"] = "0 Likely Supporter"
dict_targets["GOTV"] = "1 GOTV"
dict_targets["Persuasion"] = "2 Persuasion"
dict_targets["Persuasion+GOTV"] = "3 Persuasion+GOTV"

, but it seems like a non-pythonic approach.

，但这似乎是一种非 Pythonic 的方法。

Suggestions would be much appreciated!

建议将不胜感激！

Answer 1

回答by jezrael

I think you need Categoricalwith parameter ordered=Trueand then sorting by sort_valuesworks very nice:

我认为您需要Categorical使用参数ordered=True，然后按sort_values工作方式排序非常好：

If check documentation of Categorical:

如果检查以下文件Categorical：

Ordered Categoricalscan be sorted according to the custom order of the categories and can have a min and max value.

Ordered Categoricals可以根据类别的自定义顺序进行排序，并且可以具有最小值和最大值。

import pandas as pd

df = pd.DataFrame({'a': ['GOTV', 'Persuasion', 'Likely Supporter', 
                         'GOTV', 'Persuasion', 'Persuasion+GOTV']})

df.a = pd.Categorical(df.a, 
                      categories=["Likely Supporter","GOTV","Persuasion","Persuasion+GOTV"],
                      ordered=True)

print (df)
                  a
0              GOTV
1        Persuasion
2  Likely Supporter
3              GOTV
4        Persuasion
5   Persuasion+GOTV

print (df.a)
0                GOTV
1          Persuasion
2    Likely Supporter
3                GOTV
4          Persuasion
5     Persuasion+GOTV
Name: a, dtype: category
Categories (4, object): [Likely Supporter < GOTV < Persuasion < Persuasion+GOTV]

df.sort_values('a', inplace=True)
print (df)
                  a
2  Likely Supporter
0              GOTV
3              GOTV
1        Persuasion
4        Persuasion
5   Persuasion+GOTV

Answer 2

回答by elzurdo

The method shown in my previous answer is now deprecated.

我之前的答案中显示的方法现已弃用。

In stead it is best to use pandas.Categoricalas shown here.

相反，最好pandas.Categorical按照此处所示使用。

So:

所以：

list_ordering = ["Likely Supporter","GOTV","Persuasion","Persuasion+GOTV"]  
df["target"] = pd.Categorical(df["target"], categories=list_ordering)

Answer 3

回答by elzurdo

Thanks to jerzrael's input and references,

感谢 jerzrael 的输入和参考，

I like this sliced solution:

我喜欢这个切片解决方案：

list_ordering = ["Likely Supporter","GOTV","Persuasion","Persuasion+GOTV"]  

df["target"] = df["target"].astype("category", categories=list_ordering, ordered=True)

Pandas DataFrame 按分类列排序，但按特定类排序

提问by elzurdo

回答by jezrael

回答by elzurdo

回答by elzurdo

相关推荐

最近更新

标签

Pandas DataFrame 按分类列排序，但按特定类排序

提问by elzurdo

回答by jezrael

回答by elzurdo

回答by elzurdo

相关推荐

pandas 如何将数据框附加到现有的 Excel 工作表？

pandas 无法将“时间戳”类型与“int”类型进行比较

如何将单列 Pandas DataFrame 转换为 Series

在不满足条件的所有行上过滤 Pandas 数据框

相关推荐

最近更新

标签