pandas 如何使用熊猫按组计算时间差？

Question

提问by Hyman

Problem

问题

I want to calculate diffby group. And I don't know how to sort the timecolumn so that each group results are sorted and positive.

我想diff按组计算。而且我不知道如何对time列进行排序，以便每组结果都排序并为正。

The original data :

原始数据：

In [37]: df 
Out[37]:
  id                time
0  A 2016-11-25 16:32:17
1  A 2016-11-25 16:36:04
2  A 2016-11-25 16:35:29
3  B 2016-11-25 16:35:24
4  B 2016-11-25 16:35:46

The result I want

我想要的结果

Out[40]:
   id   time
0  A   00:35
1  A   03:12
2  B   00:22

notice: the type of time col is timedelta64[ns]

注意：时间 col 的类型是 timedelta64[ns]

Trying

试

In [38]: df['time'].diff(1)
Out[38]:
0                 NaT
1            00:03:47
2   -1 days +23:59:25
3   -1 days +23:59:55
4            00:00:22
Name: time, dtype: timedelta64[ns]

Don't get desired result.

得不到想要的结果。

Hope

希望

Not only solve the problem but the code can run fast because there are 50 million rows.

不仅解决了问题，而且代码可以运行得很快，因为有 5000 万行。

Answer 1

回答by jezrael

You can use sort_valueswith groupbyand aggregating diff:

您可以使用sort_valueswithgroupby和聚合diff：

df['diff'] = df.sort_values(['id','time']).groupby('id')['time'].diff()
print (df)
  id                time     diff
0  A 2016-11-25 16:32:17      NaT
1  A 2016-11-25 16:36:04 00:00:35
2  A 2016-11-25 16:35:29 00:03:12
3  B 2016-11-25 16:35:24      NaT
4  B 2016-11-25 16:35:46 00:00:22

If need remove rows with NaTin column diffuse dropna:

如果有必要删除行NaT中列diff使用dropna：

df = df.dropna(subset=['diff'])
print (df)
  id                time     diff
2  A 2016-11-25 16:35:29 00:03:12
1  A 2016-11-25 16:36:04 00:00:35
4  B 2016-11-25 16:35:46 00:00:22

You can also overwrite column:

您还可以覆盖列：

df.time = df.sort_values(['id','time']).groupby('id')['time'].diff()
print (df)
  id     time
0  A      NaT
1  A 00:00:35
2  A 00:03:12
3  B      NaT
4  B 00:00:22

df.time = df.sort_values(['id','time']).groupby('id')['time'].diff()
df = df.dropna(subset=['time'])
print (df)
  id     time
1  A 00:00:35
2  A 00:03:12
4  B 00:00:22

pandas 如何使用熊猫按组计算时间差？

提问by Hyman

Problem

问题

Trying

试

Hope

希望

回答by jezrael

相关推荐

最近更新

标签

pandas 如何使用熊猫按组计算时间差？

提问by Hyman

Problem

问题

Trying

试

Hope

希望

回答by jezrael

相关推荐

pandas 减去数据帧熊猫时的NaN

pandas 绘制带有通过循环附加跟踪的图表时无效的“figure_or_data”参数 - plotly

Pandas to_csv() 保存大数据帧的速度很慢

pandas 如何按一列分组并对另一列的值进行排序？

相关推荐

最近更新

标签