pandas 如何从熊猫的字符串中提取前 8 个字符

Question

提问by Rahul rajan

I have column in a dataframe and i am trying to extract 8 digits from a string. How can I do it

我在数据框中有一列，我正在尝试从字符串中提取 8 位数字。我该怎么做

    Input
 Shipment ID
20180504-S-20000
20180514-S-20537
20180514-S-20541
20180514-S-20644
20180514-S-20644
20180516-S-20009
20180516-S-20009
20180516-S-20009
20180516-S-20009

Expected Output

预期产出

I tried below code and it didnt work.

我尝试了下面的代码，但没有用。

data['Order_Date'] = data['Shipment ID'][:8]

Answer 1

回答by jezrael

You are close, need indexing with strwhich is apply for each value of Series:

您很接近，需要索引，str适用于Series 的每个值：

data['Order_Date'] = data['Shipment ID'].str[:8]

For better performance if no NaNs values:

如果没有NaNs 值，为了获得更好的性能：

data['Order_Date'] = [x[:8] for x in data['Shipment ID']]

print (data)
        Shipment ID Order_Date
0  20180504-S-20000   20180504
1  20180514-S-20537   20180514
2  20180514-S-20541   20180514
3  20180514-S-20644   20180514
4  20180514-S-20644   20180514
5  20180516-S-20009   20180516
6  20180516-S-20009   20180516
7  20180516-S-20009   20180516
8  20180516-S-20009   20180516

If omit strcode filter column by position, first N values like:

如果str按位置省略代码过滤器列，则前 N 个值如：

print (data['Shipment ID'][:2])
0    20180504-S-20000
1    20180514-S-20537
Name: Shipment ID, dtype: object

Answer 2

回答by Rakesh

You can also use str.extract

你也可以使用 str.extract

Ex:

前任：

import pandas as pd

df = pd.DataFrame({'Shipment ID': ['20180504-S-20000', '20180514-S-20537', '20180514-S-20541', '20180514-S-20644', '20180514-S-20644', '20180516-S-20009', '20180516-S-20009', '20180516-S-20009', '20180516-S-20009']})
df["Order_Date"] = df["Shipment ID"].str.extract(r"(\d{8})")
print(df)

Output:

输出：

       Shipment ID Order_Date
0  20180504-S-20000   20180504
1  20180514-S-20537   20180514
2  20180514-S-20541   20180514
3  20180514-S-20644   20180514
4  20180514-S-20644   20180514
5  20180516-S-20009   20180516
6  20180516-S-20009   20180516
7  20180516-S-20009   20180516
8  20180516-S-20009   20180516

Answer 3

回答by Onyambu

You can also decide to delete from -Sto the end

您也可以决定从删除-S到最后

df["Order_Date"]=df['Shipment ID'].replace(regex=r"\-.*",value="")
df
        Shipment ID Order_Date
0  20180504-S-20000   20180504
1  20180514-S-20537   20180514
2  20180514-S-20541   20180514
3  20180514-S-20644   20180514
4  20180514-S-20644   20180514
5  20180516-S-20009   20180516
6  20180516-S-20009   20180516
7  20180516-S-20009   20180516
8  20180516-S-20009   20180516

Also you can capture the first 8 digits then delete everything and replace back with a backreference of the captured group:

您也可以捕获前 8 位数字，然后删除所有内容并用捕获组的反向引用替换回来：

df['Shipment ID'].replace(regex=r"(\d{8}).*",value="\1")

pandas 如何从熊猫的字符串中提取前 8 个字符

提问by Rahul rajan

回答by jezrael

回答by Rakesh

回答by Onyambu

相关推荐

最近更新

标签

pandas 如何从熊猫的字符串中提取前 8 个字符

提问by Rahul rajan

回答by jezrael

回答by Rakesh

回答by Onyambu

相关推荐

pandas 如何计算两个熊猫列之间的时间差

pandas ValueError: Number of labels is 1. 有效值为 2 到 n_samples - 1 (inclusive) 当使用剪影_score

Pandas DataFrame 作为函数的参数 - Python

pandas 在python中匹配日期时间的正则表达式模式

相关推荐

最近更新

标签