如何在 Pandas 数据框中选择值出现多次的行

Question

提问by Char

Let's say I have the Pandas dataframe with columns of different measurement attributes and corresponding measurement values.

假设我有 Pandas 数据框，其中包含不同测量属性和相应测量值的列。

ID     Parameter     Value
0      'A'           4.3
1      'B'           3.1
2      'C'           8.9
3      'A'           2.1
4      'A'           3.9
.      .             .
.      .             .
.      .             .
100    'B'           3.8

How can I filter this dataframe to only have measurements that appear more than X number of times? For example, for this dataframe I want to get all rows with more than 5 measurements (lets say only parameters 'A' and 'B' appear more than 5 times) to get a dataframe like below.

如何过滤此数据框以仅包含出现次数超过 X 次的测量值？例如，对于这个数据框，我想要获得超过 5 个测量值的所有行（假设只有参数 'A' 和 'B' 出现超过 5 次）以获得如下所示的数据框。

ID     Parameter     Value
0      'A'           4.3
1      'B'           3.1
3      'A'           2.1
.      .             .
.      .             .
.      .             .
100    'B'           3.8

Answer 1

回答by cs95

You can use value_counts+ isin-

您可以使用value_counts+ isin-

v = df.Parameter.value_counts()
df[df.Parameter.isin(v.index[v.gt(5)])]

For example, where K = 2(get all items which have more than 2 readings) -

例如，where K = 2（获取具有超过 2 个读数的所有项目）-

df

   ID Parameter  Value
0   0         A    4.3
1   1         B    3.1
2   2         C    8.9
3   3         A    2.1
4   4         A    3.9
5   5         B    4.5

v = df.Parameter.value_counts()
v

A    3
B    2
C    1
Name: Parameter, dtype: int64

df[df.Parameter.isin(v.index[v.gt(2)])]

   ID Parameter  Value
0   0         A    4.3
3   3         A    2.1
4   4         A    3.9

Answer 2

回答by jezrael

Use transform+ sizewith boolean indexing:

使用transform+size与boolean indexing：

df[df.groupby('Parameter')['Parameter'].transform('size') > 5]

Answer 3

回答by YOBEN_S

By using filter

通过使用 filter

df.groupby('Parameter').filter(lambda x : x['Parameter'].shape[0]>=5)

Answer 4

回答by Esptheitroad Murhabazi

Loc with count could also work

带有计数的 Loc 也可以工作

df.loc[df.Parameter.isin((df.groupby('Parameter').size().Value >= 5).index)]

如何在 Pandas 数据框中选择值出现多次的行

提问by Char

回答by cs95

回答by jezrael

回答by YOBEN_S

回答by Esptheitroad Murhabazi

相关推荐

最近更新

标签

如何在 Pandas 数据框中选择值出现多次的行

提问by Char

回答by cs95

回答by jezrael

回答by YOBEN_S

回答by Esptheitroad Murhabazi

相关推荐

pandas 根据其他列的值创建新列

pandas 对熊猫数据框进行子集化的最佳方法

pandas Matplotlib 绘图：AttributeError：'list' 对象没有属性 'xaxis'

pandas 数据框检查索引是否存在于多索引中

相关推荐

最近更新

标签