pandas 熊猫将列表拆分为带有正则表达式的列

Question

提问by sheldonzy

I have a string list:

我有一个字符串列表：

content
01/09/15, 10:07 - message1
01/09/15, 10:32 - message2
01/09/15, 10:44 - message3

I want a data frame, like:

我想要一个数据框，例如：

     date                message
01/09/15, 10:07          message1
01/09/15, 10:32          message2
01/09/15, 10:44          message3

Considering the fact that all my strings in the list starts in that format, I can just split by -, but I rather look for a smarter way to do so.

考虑到我在列表中的所有字符串都以这种格式开始这一事实，我可以只用分割-，但我宁愿寻找一种更聪明的方法来做到这一点。

history = pd.DataFrame([line.split(" - ", 1) for line in content], columns=['date', 'message'])

(I'll convert the date to date time afterwards)

（之后我会将日期转换为日期时间）

Any help would be appreciated.

任何帮助，将不胜感激。

Answer 1

回答by Zero

You can use str.extract- where named groups can become column names

您可以使用str.extract- 其中命名组可以成为列名

In [5827]: df['content'].str.extract('(?P<date>[\s\S]+) - (?P<message>[\s\S]+)', 
                                     expand=True)
Out[5827]:
              date   message
0  01/09/15, 10:07  message1
1  01/09/15, 10:32  message2
2  01/09/15, 10:44  message3

Details

细节

In [5828]: df
Out[5828]:
                      content
0  01/09/15, 10:07 - message1
1  01/09/15, 10:32 - message2
2  01/09/15, 10:44 - message3

Answer 2

回答by jezrael

Use str.splitby \s+-\s+- \s+is one or more whitespaces:

Use str.splitby \s+-\s+-\s+是一个或多个空格：

df[['date','message']] = df['content'].str.split('\s+-\s+', expand=True)
print (df)
                      content             date   message
0  01/09/15, 10:07 - message1  01/09/15, 10:07  message1
1  01/09/15, 10:32 - message2  01/09/15, 10:32  message2
2  01/09/15, 10:44 - message3  01/09/15, 10:44  message3

If need remove contentcolumn add DataFrame.pop:

如果需要删除content列添加DataFrame.pop：

df[['date','message']] = df.pop('content').str.split('\s+-\s+', expand=True)

print (df)
              date   message
0  01/09/15, 10:07  message1
1  01/09/15, 10:32  message2
2  01/09/15, 10:44  message3

pandas 熊猫将列表拆分为带有正则表达式的列

提问by sheldonzy

回答by Zero

回答by jezrael

相关推荐

最近更新

标签

pandas 熊猫将列表拆分为带有正则表达式的列

提问by sheldonzy

回答by Zero

回答by jezrael

相关推荐

在 Pandas 中组合具有不同索引的数据帧

获取 Pandas DataFrame 中每行非零值的计数

pandas 将字符串转换为浮动熊猫

pandas 用数组替换熊猫列值

相关推荐

最近更新

标签