pandas 如何将训练和测试数据集拆分为 X_Train y_train 和 X_Test y_Test？

Question

提问by Gaurav Singh

So I successfully split my dataset into Train & Test in a ratio of 70:30 I used this:

所以我成功地将我的数据集以 70:30 的比例拆分为训练和测试，我使用了这个：

df_glass['split'] = np.random.randn(df_glass.shape[0], 1)
msk = np.random.rand(len(df_glass)) <= 0.7
train = df_glass[msk]
test = df_glass[~msk]
print(train)
print(test)

Now how do I split train and test to X_trainand y_trainand X_testand y_testSuch that, Xdenotes the features of the database and y denotes the response?

现在我如何将训练和测试拆分为X_trainandy_train和X_testandy_test这样的，X表示数据库的特征，y 表示响应？

I need to do supervised learning and apply ML modules on X_Trainand y_Train.

我需要进行监督学习并在X_Train和上应用 ML 模块y_Train。

My database looks like this: Database_snippet

我的数据库如下所示： Database_snippet

Answer 1

回答by Vivek Kalyanarangan

Scikit-Learn has a convenience method for splitting pandas dataframes -

Scikit-Learn 有一个方便的方法来拆分 Pandas 数据帧 -

This will do the split -

这将进行拆分 -

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df[list_of_X_cols], df['y'], test_size=0.33, random_state=42)

Answer 2

回答by Ariful Shuvo

i guess you may found this useful to understand..

我想你可能会发现这对理解很有用..

import pandas as pd
from sklearn.cross_validation import train_test_split
from sklearn.linear_model import LinearRegression

#importing dataset
dataset = pd.read_csv('Salary_Data.csv')
x = dataset.iloc[:, :-1].values
y = dataset.iloc[:, 1].values

#spliting the dataset into training and test set
x_train, x_test, y_train, y_test = train_test_split(x, y, 
test_size=1/3, random_state=0)

pandas 如何将训练和测试数据集拆分为 X_Train y_train 和 X_Test y_Test？

提问by Gaurav Singh

回答by Vivek Kalyanarangan

回答by Ariful Shuvo

相关推荐

最近更新

标签

pandas 如何将训练和测试数据集拆分为 X_Train y_train 和 X_Test y_Test？

提问by Gaurav Singh

回答by Vivek Kalyanarangan

回答by Ariful Shuvo

相关推荐

pandas 计算熊猫中的非空值

pandas 重命名熊猫数据框的列名没有按预期工作 - python

在 Pandas 中使用 TQDM 进度条

将 np 数组添加到现有的 Pandas 数据框

相关推荐

最近更新

标签