Pandas 从列中可用的列表数据中扩展行

Question

提问by Sanjay Yadav

I have a data frame like this in pandas:

我在Pandas中有一个这样的数据框：

 column1      column2
 [a,b,c]        1
 [d,e,f]        2
 [g,h,i]        3

Expected output:

预期输出：

column1      column2
  a              1
  b              1
  c              1
  d              2
  e              2
  f              2
  g              3
  h              3
  i              3

How to process this data ?

如何处理这些数据？

Answer 1

回答by jezrael

You can create DataFrameby its constructor and stack:

您可以DataFrame通过其构造函数创建和stack：

 df2 = pd.DataFrame(df.column1.tolist(), index=df.column2)
        .stack()
        .reset_index(level=1, drop=True)
        .reset_index(name='column1')[['column1','column2']]
print (df2)

  column1  column2
0       a        1
1       b        1
2       c        1
3       d        2
4       e        2
5       f        2
6       g        3
7       h        3
8       i        3

If need change ordering by subset [['column1','column2']], you can also omit first reset_index:

如果需要按子集更改排序[['column1','column2']]，您也可以先省略reset_index：

df2 = pd.DataFrame(df.column1.tolist(), index=df.column2)
        .stack()
        .reset_index(name='column1')[['column1','column2']]
print (df2)
  column1  column2
0       a        1
1       b        1
2       c        1
3       d        2
4       e        2
5       f        2
6       g        3
7       h        3
8       i        3

Another solution DataFrame.from_recordsfor creating DataFramefrom first column, then create Seriesby stackand jointo original DataFrame:

另一种解决方案DataFrame.from_records，用于创建DataFrame从第一列，然后创建Series通过stack与join原始DataFrame：

df = pd.DataFrame({'column1': [['a','b','c'],['d','e','f'],['g','h','i']],
                   'column2':[1,2,3]})


a = pd.DataFrame.from_records(df.column1.tolist())
                .stack()
                .reset_index(level=1, drop=True)
                .rename('column1')

print (a)
0    a
0    b
0    c
1    d
1    e
1    f
2    g
2    h
2    i
Name: column1, dtype: object

print (df.drop('column1', axis=1)
         .join(a)
         .reset_index(drop=True)[['column1','column2']])

  column1  column2
0       a        1
1       b        1
2       c        1
3       d        2
4       e        2
5       f        2
6       g        3
7       h        3
8       i        3

Answer 2

回答by Erfan

`2019 updated answer`

Since pandas >= 0.25.0we have the explodemethod for this, which expands list to a row for each element and repeats the rest of the columns:

因为pandas >= 0.25.0我们有这个explode方法，它将列表扩展为每个元素的一行并重复其余的列：

df.explode('column1').reset_index(drop=True)

Output

输出


  column1  column2
0       a        1
1       b        1
2       c        1
3       d        2
4       e        2
5       f        2
6       g        3
7       h        3
8       i        3

Answer 3

回答by bencekd

Another solution is to use the result_type='expand'argument of the pandas.applyfunction available since pandas 0.23. Answering @splinter's questionthis method can be generalized -- see below:

另一种解决方案是使用自 pandas 0.23 以来可用result_type='expand'的pandas.apply函数的参数。回答@splinter 的问题，这个方法可以推广——见下文：

import pandas as pd
from numpy import arange

df = pd.DataFrame(
    {'column1' : [['a','b','c'],['d','e','f'],['g','h','i']],
    'column2': [1,2,3]}
)

pd.melt(
    df.join(
        df.apply(lambda row: row['column1'], axis=1, result_type='expand')
        ),
 value_vars=arange(df['column1'].shape[0]), value_name='column1', var_name='column2')[['column1','column2']]

# can be generalized 

df = pd.DataFrame(
    {'column1' : [['a','b','c'],['d','e','f'],['g','h','i']],
    'column2': [1,2,3],
    'column3': [[1,2],[2,3],[3,4]],
    'column4': [42,23,321],
    'column5': ['a','b','c']}
)

(pd.melt(
    df.join(
        df.apply(lambda row: row['column1'], axis=1, result_type='expand')
        ),
 value_vars=arange(df['column1'].shape[0]), value_name='column1', id_vars=df.columns[1:])
 .drop(columns=['variable'])[list(df.columns[:1]) + list(df.columns[1:])]
 .sort_values(by=['column1']))

UPDATE(for Jwely's comment): if you have lists with varying length, you can do:

更新（对于 Jwely 的评论）：如果您有不同长度的列表，您可以执行以下操作：

df = pd.DataFrame(
    {'column1' : [['a','b','c'],['d','f'],['g','h','i']],
    'column2': [1,2,3]}
)

longest = max(df['column1'].apply(lambda x: len(x)))

pd.melt(
    df.join(
        df.apply(lambda row: row['column1'] if len(row['column1']) >= longest else row['column1'] + [None] * (longest - len(row['column1'])), axis=1, result_type='expand')
    ),
 value_vars=arange(df['column1'].shape[0]), value_name='column1', var_name='column2').query("column1 == column1")[['column1','column2']]

Pandas 从列中可用的列表数据中扩展行

提问by Sanjay Yadav

Expected output:

预期输出：

回答by jezrael

回答by Erfan

`2019 updated answer`

`2019 updated answer`

回答by bencekd

相关推荐

最近更新

标签

Pandas 从列中可用的列表数据中扩展行

提问by Sanjay Yadav

Expected output:

预期输出：

回答by jezrael

回答by Erfan

2019 updated answer

2019 updated answer

回答by bencekd

相关推荐

pandas LabelEncoder 指定 DataFrame 中的类

pandas 无法访问数据框列

在 scipy/pandas 中使用 Pearson 的 r 删除“nan”

Python Pandas：如何将一列中的所有列表编译成一个唯一的列表

相关推荐

最近更新

标签

`2019 updated answer`

`2019 updated answer`