Pandas Melt with Multiple Value Vars

Question

提问by LauraF

I have a data set which is in wide format like this

我有一个像这样的宽格式数据集

   Index Country     Variable 2000 2001 2002 2003 2004 2005
   0     Argentina   var1     12   15   18    17  23   29
   1     Argentina   var2     1    3    2     5   7    5
   2     Brazil      var1     20   23   25   29   31   32
   3     Brazil      var2     0    1    2    2    3    3

I want to reshape my data to long so that year, var1, and var2 become new columns

我想将我的数据改造成很长的数据，以便那一年 var1 和 var2 成为新列

  Index Country     year   var1 var2
  0     Argentina   2000   12   1
  1     Argentina   2001   15   3
  2     Argentina   2002   18   2
  ....
  6     Brazil      2000   20   0
  7     Brazil      2001   23   1

I got my code to work when I only had one variable by writing

当我只有一个变量时，我让我的代码工作

df=(pd.melt(df,id_vars='Country',value_name='Var1', var_name='year'))

I cant figure out how to do this for a var1,var2, var3, etc.

我无法弄清楚如何为 var1、var2、var3 等执行此操作。

Answer 1

回答by ayhan

Instead of melt, you can use a combination of stack and unstack:

您可以使用 stack 和 unstack 的组合来代替融化：

(df.set_index(['Country', 'Variable'])
   .rename_axis(['Year'], axis=1)
   .stack()
   .unstack('Variable')
   .reset_index())

Variable    Country  Year  var1  var2
0         Argentina  2000    12     1
1         Argentina  2001    15     3
2         Argentina  2002    18     2
3         Argentina  2003    17     5
4         Argentina  2004    23     7
5         Argentina  2005    29     5
6            Brazil  2000    20     0
7            Brazil  2001    23     1
8            Brazil  2002    25     2
9            Brazil  2003    29     2
10           Brazil  2004    31     3
11           Brazil  2005    32     3

Answer 2

回答by Scott Boston

Option 1

选项1

Using meltthen unstackfor var1, var2, etc...

将meltthenunstack用于 var1、var2 等...

(df1.melt(id_vars=['Country','Variable'],var_name='Year')
    .set_index(['Country','Year','Variable'])
    .squeeze()
    .unstack()
    .reset_index())

Output:

输出：

Variable    Country  Year  var1  var2
0         Argentina  2000    12     1
1         Argentina  2001    15     3
2         Argentina  2002    18     2
3         Argentina  2003    17     5
4         Argentina  2004    23     7
5         Argentina  2005    29     5
6            Brazil  2000    20     0
7            Brazil  2001    23     1
8            Brazil  2002    25     2
9            Brazil  2003    29     2
10           Brazil  2004    31     3
11           Brazil  2005    32     3

Option 2

选项 2

Using pivotthen stack:

使用pivot然后stack：

(df1.pivot(index='Country',columns='Variable')
   .stack(0)
   .rename_axis(['Country','Year'])
   .reset_index())

Output:

输出：

Variable    Country  Year  var1  var2
0         Argentina  2000    12     1
1         Argentina  2001    15     3
2         Argentina  2002    18     2
3         Argentina  2003    17     5
4         Argentina  2004    23     7
5         Argentina  2005    29     5
6            Brazil  2000    20     0
7            Brazil  2001    23     1
8            Brazil  2002    25     2
9            Brazil  2003    29     2
10           Brazil  2004    31     3
11           Brazil  2005    32     3

Option 3 (ayhan's solution)

选项3（ayhan的解决方案）

Using set_index, stack, and unstack:

使用set_index，stack以及unstack：

(df.set_index(['Country', 'Variable'])
   .rename_axis(['Year'], axis=1)
   .stack()
   .unstack('Variable')
   .reset_index())

Output:

输出：

Variable    Country  Year  var1  var2
0         Argentina  2000    12     1
1         Argentina  2001    15     3
2         Argentina  2002    18     2
3         Argentina  2003    17     5
4         Argentina  2004    23     7
5         Argentina  2005    29     5
6            Brazil  2000    20     0
7            Brazil  2001    23     1
8            Brazil  2002    25     2
9            Brazil  2003    29     2
10           Brazil  2004    31     3
11           Brazil  2005    32     3

Answer 3

回答by piRSquared

numpy

years = df.drop(['Country', 'Variable'], 1)
y = years.values
m = y.shape[1]
c = df.Country.values
v = df.Variable.values

f0, u0 = pd.factorize(df.Country.values)
f1, u1 = pd.factorize(df.Variable.values)

w = np.empty((u1.size, u0.size, m), dtype=y.dtype)
w[f1, f0] = y

results = pd.DataFrame(dict(
        Country=u0.repeat(m),
        Year=np.tile(years.columns.values, u0.size),
    )).join(pd.DataFrame(w.reshape(-1, m * u1.size).T, columns=u1))

results

      Country  Year  var1  var2
0   Argentina  2000    12     1
1   Argentina  2001    15     3
2   Argentina  2002    18     2
3   Argentina  2003    17     5
4   Argentina  2004    23     7
5   Argentina  2005    29     5
6      Brazil  2000    20     0
7      Brazil  2001    23     1
8      Brazil  2002    25     2
9      Brazil  2003    29     2
10     Brazil  2004    31     3
11     Brazil  2005    32     3

Pandas Melt with Multiple Value Vars

提问by LauraF

回答by ayhan

回答by Scott Boston

Option 1

选项1

Option 2

选项 2

Option 3 (ayhan's solution)

选项3（ayhan的解决方案）

回答by piRSquared

相关推荐

最近更新

标签

Pandas Melt with Multiple Value Vars

提问by LauraF

回答by ayhan

回答by Scott Boston

Option 1

选项1

Option 2

选项 2

Option 3 (ayhan's solution)

选项3（ayhan的解决方案）

回答by piRSquared

相关推荐

使用 MySQL 的 Pandas 0.20.2 to_sql()

pandas 外部合并熊猫中的两个数据框

.div 在 Pandas (Python) 中有什么作用

将 Pandas DataFrame 切片为新的 DataFrame

相关推荐

最近更新

标签