Python Pandas 将一列列表拆分为多列

Question

提问by user2938093

I have a pandas DataFrame with one column:

我有一个包含一列的 Pandas DataFrame：

import pandas as pd

df = pd.DataFrame(
    data={
        "teams": [
            ["SF", "NYG"],
            ["SF", "NYG"],
            ["SF", "NYG"],
            ["SF", "NYG"],
            ["SF", "NYG"],
            ["SF", "NYG"],
            ["SF", "NYG"],
        ]
    }
)

print(df)

Output:

输出：

       teams
0  [SF, NYG]
1  [SF, NYG]
2  [SF, NYG]
3  [SF, NYG]
4  [SF, NYG]
5  [SF, NYG]
6  [SF, NYG]

How can split this column of lists into 2 columns?

如何将此列列表拆分为 2 列？

Answer 1

采纳答案by jezrael

You can use DataFrameconstructor with listscreated by to_list:

您可以将DataFrame构造函数与listscreated by一起使用to_list：

import pandas as pd

d1 = {'teams': [['SF', 'NYG'],['SF', 'NYG'],['SF', 'NYG'],
                ['SF', 'NYG'],['SF', 'NYG'],['SF', 'NYG'],['SF', 'NYG']]}
df2 = pd.DataFrame(d1)
print (df2)
       teams
0  [SF, NYG]
1  [SF, NYG]
2  [SF, NYG]
3  [SF, NYG]
4  [SF, NYG]
5  [SF, NYG]
6  [SF, NYG]

df2[['team1','team2']] = pd.DataFrame(df2.teams.tolist(), index= df2.index)
print (df2)
       teams team1 team2
0  [SF, NYG]    SF   NYG
1  [SF, NYG]    SF   NYG
2  [SF, NYG]    SF   NYG
3  [SF, NYG]    SF   NYG
4  [SF, NYG]    SF   NYG
5  [SF, NYG]    SF   NYG
6  [SF, NYG]    SF   NYG

And for new DataFrame:

而对于新的DataFrame：

df3 = pd.DataFrame(df2['teams'].to_list(), columns=['team1','team2'])
print (df3)
  team1 team2
0    SF   NYG
1    SF   NYG
2    SF   NYG
3    SF   NYG
4    SF   NYG
5    SF   NYG
6    SF   NYG

Solution with apply(pd.Series)is very slow:

解决方案apply(pd.Series)很慢：

#7k rows
df2 = pd.concat([df2]*1000).reset_index(drop=True)

In [121]: %timeit df2['teams'].apply(pd.Series)
1.79 s ± 52.5 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

In [122]: %timeit pd.DataFrame(df2['teams'].to_list(), columns=['team1','team2'])
1.63 ms ± 54.3 μs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

Answer 2

回答by mikkokotila

There seems to be a syntactically simpler way, and therefore easier to remember, as opposed to the proposed solutions. I'm assuming that the column is called 'meta' in a dataframe df:

与建议的解决方案相反，似乎有一种语法更简单的方法，因此更容易记住。我假设该列在数据帧 df 中称为“元”：

df2 = pd.DataFrame(df['meta'].str.split().values.tolist())

Answer 3

回答by Joseph Davison

Much simpler solution:

更简单的解决方案：

pd.DataFrame(df2["teams"].to_list(), columns=['team1', 'team2'])

Yields,

产量，

  team1 team2
-------------
0    SF   NYG
1    SF   NYG
2    SF   NYG
3    SF   NYG
4    SF   NYG
5    SF   NYG
6    SF   NYG
7    SF   NYG

If you wanted to split a column of delimited strings rather than lists, you could similarly do:

如果您想拆分一列分隔字符串而不是列表，您可以类似地执行以下操作：

pd.DataFrame(df["teams"].str.split('<delim>', expand=True).values,
             columns=['team1', 'team2'])

Answer 4

回答by Kevin Markham

This solution preserves the index of the df2DataFrame, unlike any solution that uses tolist():

此解决方案保留了df2DataFrame的索引，与使用tolist()以下任何解决方案不同：

df3 = df2.teams.apply(pd.Series)
df3.columns = ['team1', 'team2']

Here's the result:

结果如下：

  team1 team2
0    SF   NYG
1    SF   NYG
2    SF   NYG
3    SF   NYG
4    SF   NYG
5    SF   NYG
6    SF   NYG

Answer 5

回答by ailurid

Based on the previous answers, here is another solution which returns the same result as df2.teams.apply(pd.Series) with a much faster run time:

基于之前的答案，这里是另一个解决方案，它返回与 df2.teams.apply(pd.Series) 相同的结果，运行时间要快得多：

pd.DataFrame([{x: y for x, y in enumerate(item)} for item in df2['teams'].values.tolist()], index=df2.index)

Timings:

时间：

In [1]:
import pandas as pd
d1 = {'teams': [['SF', 'NYG'],['SF', 'NYG'],['SF', 'NYG'],
                ['SF', 'NYG'],['SF', 'NYG'],['SF', 'NYG'],['SF', 'NYG']]}
df2 = pd.DataFrame(d1)
df2 = pd.concat([df2]*1000).reset_index(drop=True)

In [2]: %timeit df2['teams'].apply(pd.Series)

8.27 s ± 2.73 s per loop (mean ± std. dev. of 7 runs, 1 loop each)

In [3]: %timeit pd.DataFrame([{x: y for x, y in enumerate(item)} for item in df2['teams'].values.tolist()], index=df2.index)

35.4 ms ± 5.22 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

Answer 6

回答by Lucas

The above solutions didn't work for me since I have nanobservations in my dataframe. In my case df2[['team1','team2']] = pd.DataFrame(df2.teams.values.tolist(), index= df2.index)yields:

上述解决方案对我不起作用，因为我nan在我的dataframe. 在我的情况下df2[['team1','team2']] = pd.DataFrame(df2.teams.values.tolist(), index= df2.index)产生：

object of type 'float' has no len()

I solve this using list comprehension. Here the replicable example:

我使用列表理解来解决这个问题。这是可复制的示例：

import pandas as pd
import numpy as np
d1 = {'teams': [['SF', 'NYG'],['SF', 'NYG'],['SF', 'NYG'],
            ['SF', 'NYG'],['SF', 'NYG'],['SF', 'NYG'],['SF', 'NYG']]}
df2 = pd.DataFrame(d1)
df2.loc[2,'teams'] = np.nan
df2.loc[4,'teams'] = np.nan
df2

output:

输出：

        teams
0   [SF, NYG]
1   [SF, NYG]
2   NaN
3   [SF, NYG]
4   NaN
5   [SF, NYG]
6   [SF, NYG]

df2['team1']=np.nan
df2['team2']=np.nan

solving with list comprehension:

用列表理解解决：

for i in [0,1]:
    df2['team{}'.format(str(i+1))]=[k[i] if isinstance(k,list) else k for k in df2['teams']]

df2

yields:

产量：

    teams   team1   team2
0   [SF, NYG]   SF  NYG
1   [SF, NYG]   SF  NYG
2   NaN        NaN  NaN
3   [SF, NYG]   SF  NYG
4   NaN        NaN  NaN
5   [SF, NYG]   SF  NYG
6   [SF, NYG]   SF  NYG

Answer 7

回答by Talis

list comprehension

列表理解

simple implementation with list comprehension ( my favorite)

列表理解的简单实现（我最喜欢的）

df = pd.DataFrame([pd.Series(x) for x in df.teams])
df.columns = ['team_{}'.format(x+1) for x in df.columns]

timing on output:

输出时间：

CPU times: user 0 ns, sys: 0 ns, total: 0 ns
Wall time: 2.71 ms

output:

输出：

team_1  team_2
0   SF  NYG
1   SF  NYG
2   SF  NYG
3   SF  NYG
4   SF  NYG
5   SF  NYG
6   SF  NYG

Python Pandas 将一列列表拆分为多列

提问by user2938093

采纳答案by jezrael

回答by mikkokotila

回答by Joseph Davison

回答by Kevin Markham

回答by ailurid

回答by Lucas

回答by Talis

相关推荐

最近更新

标签

Python Pandas 将一列列表拆分为多列

提问by user2938093

采纳答案by jezrael

回答by mikkokotila

回答by Joseph Davison

回答by Kevin Markham

回答by ailurid

回答by Lucas

回答by Talis

相关推荐

Python 使用 TensorFlow 的多标签文本分类

Python SSLError：sslv3 警报握手失败

Python AttributeError: 'dict' 对象没有属性 'predictors'

Python 是否有任何方法可以使用 openpyxl 获取 .xlsx 表中存在的行数和列数？

相关推荐

最近更新

标签