Python 查找名称包含特定字符串的列

Question

提问by erikfas

I have a dataframe with column names, and I want to find the one that contains a certain string, but does not exactly match it. I'm searching for 'spike'in column names like 'spike-2', 'hey spike', 'spiked-in'(the 'spike'part is always continuous).

我有一个带有列名的数据框，我想找到包含某个字符串但不完全匹配的那个。我'spike'在像'spike-2', 'hey spike', 之类的列名中搜索'spiked-in'（该'spike'部分始终是连续的）。

I want the column name to be returned as a string or a variable, so I access the column later with df['name']or df[name]as normal. I've tried to find ways to do this, to no avail. Any tips?

我希望将列名作为字符串或变量返回，因此我稍后可以使用df['name']或df[name]正常访问该列。我试图找到方法来做到这一点，但无济于事。有小费吗？

Answer 1

采纳答案by Alvaro Fuentes

Just iterate over DataFrame.columns, now this is an example in which you will end up with a list of column names that match:

只需迭代DataFrame.columns，现在这是一个示例，您将在其中得到匹配的列名列表：

import pandas as pd

data = {'spike-2': [1,2,3], 'hey spke': [4,5,6], 'spiked-in': [7,8,9], 'no': [10,11,12]}
df = pd.DataFrame(data)

spike_cols = [col for col in df.columns if 'spike' in col]
print(list(df.columns))
print(spike_cols)

Output:

输出：

['hey spke', 'no', 'spike-2', 'spiked-in']
['spike-2', 'spiked-in']

Explanation:

解释：

df.columnsreturns a list of column names
[col for col in df.columns if 'spike' in col]iterates over the list df.columnswith the variable coland adds it to the resulting list if colcontains 'spike'. This syntax is list comprehension.

df.columns返回列名列表
[col for col in df.columns if 'spike' in col]df.columns使用变量遍历列表，col如果colcontains则将其添加到结果列表中'spike'。这种语法是列表理解。

If you only want the resulting data set with the columns that match you can do this:

如果您只想要结果数据集与匹配的列，您可以这样做：

df2 = df.filter(regex='spike')
print(df2)

Output:

输出：

   spike-2  spiked-in
0        1          7
1        2          8
2        3          9

Answer 2

回答by Ben

This answeruses the DataFrame.filter method to do this without list comprehension:

此答案使用 DataFrame.filter 方法在没有列表理解的情况下执行此操作：

import pandas as pd

data = {'spike-2': [1,2,3], 'hey spke': [4,5,6]}
df = pd.DataFrame(data)

print(df.filter(like='spike').columns)

Will output just 'spike-2'. You can also use regex, as some people suggested in comments above:

将只输出“spike-2”。您也可以使用正则表达式，正如一些人在上面的评论中建议的那样：

print(df.filter(regex='spike|spke').columns)

Will output both columns: ['spike-2', 'hey spke']

将输出两列：['spike-2', 'hey spke']

Answer 3

回答by Michael James Kali Galarnyk

You can also use df.columns[df.columns.str.contains(pat = 'spike')]

你也可以使用 df.columns[df.columns.str.contains(pat = 'spike')]

data = {'spike-2': [1,2,3], 'hey spke': [4,5,6], 'spiked-in': [7,8,9], 'no': [10,11,12]}
df = pd.DataFrame(data)

colNames = df.columns[df.columns.str.contains(pat = 'spike')] 

print(colNames)

This will output the column names: 'spike-2', 'spiked-in'

这将输出列名： 'spike-2', 'spiked-in'

More about pandas.Series.str.contains.

更多关于pandas.Series.str.contains 的信息。

Answer 4

回答by Yury Wallet

You also can use this code:

您也可以使用此代码：

spike_cols =[x for x in df.columns[df.columns.str.contains('spike')]]

Answer 5

回答by Manny

# select columns containing 'spike'
df.filter(like='spike', axis=1)

You can also select by name, regular expression. Refer to: pandas.DataFrame.filter

您还可以按名称、正则表达式进行选择。参考：pandas.DataFrame.filter

Answer 6

回答by DhanushNayak

df.loc[:,df.columns.str.contains("spike")]

Answer 7

回答by vasili111

Getting name and subsetting based on Start, Contains, and Ends:

根据开始、包含和结束获取名称和子集：

# from: https://stackoverflow.com/questions/21285380/find-column-whose-name-contains-a-specific-string
# from: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.contains.html
# from: https://cmdlinetips.com/2019/04/how-to-select-columns-using-prefix-suffix-of-column-names-in-pandas/
# from: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.filter.html




import pandas as pd



data = {'spike_starts': [1,2,3], 'ends_spike_starts': [4,5,6], 'ends_spike': [7,8,9], 'not': [10,11,12]}
df = pd.DataFrame(data)



print("\n")
print("----------------------------------------")
colNames_contains = df.columns[df.columns.str.contains(pat = 'spike')].tolist() 
print("Contains")
print(colNames_contains)



print("\n")
print("----------------------------------------")
colNames_starts = df.columns[df.columns.str.contains(pat = '^spike')].tolist() 
print("Starts")
print(colNames_starts)



print("\n")
print("----------------------------------------")
colNames_ends = df.columns[df.columns.str.contains(pat = 'spike$')].tolist() 
print("Ends")
print(colNames_ends)



print("\n")
print("----------------------------------------")
df_subset_start = df.filter(regex='^spike',axis=1)
print("Starts")
print(df_subset_start)



print("\n")
print("----------------------------------------")
df_subset_contains = df.filter(regex='spike',axis=1)
print("Contains")
print(df_subset_contains)



print("\n")
print("----------------------------------------")
df_subset_ends = df.filter(regex='spike$',axis=1)
print("Ends")
print(df_subset_ends)

Python 查找名称包含特定字符串的列

提问by erikfas

采纳答案by Alvaro Fuentes

回答by Ben

回答by Michael James Kali Galarnyk

回答by Yury Wallet

回答by Manny

回答by DhanushNayak

回答by vasili111

相关推荐

最近更新

标签

Python 查找名称包含特定字符串的列

提问by erikfas

采纳答案by Alvaro Fuentes

回答by Ben

回答by Michael James Kali Galarnyk

回答by Yury Wallet

回答by Manny

回答by DhanushNayak

回答by vasili111

相关推荐

Python中的一个图形中的多个图

提高 Python 模块导入的速度

Python分割函数。解包错误的值太多

Python 如何使用 tkinter 中的按钮设置“Entry”小部件的文本/值/内容

相关推荐

最近更新

标签