pandas 如何将pandas数据帧转换为具有rdd属性的pyspark数据帧？

Question

提问by Carmelo Smith

Now I am doing a project for my course, and find a problem to convert pandas dataframeto pyspark dataframe. I have produce a pandas dataframe named data_org as follows. enter image description here

现在我正在为我的课程做一个项目，并发现一个问题要转换pandas dataframe为pyspark dataframe. 我已经生成了一个名为 data_org 的 Pandas 数据框，如下所示。在此处输入图片说明

And I want to covert it into pyspark dataframe to adjust it into libsvm format. So my code is

我想将其转换为 pyspark 数据帧以将其调整为 libsvm 格式。所以我的代码是

from pyspark.sql import SQLContext  
spark_df = SQLContext.createDataFrame(data_org)

However, it went wrong.

然而，它出错了。

TypeError: createDataFrame() missing 1 required positional argument: 'data'

类型错误：createDataFrame() 缺少 1 个必需的位置参数：“数据”

I really do not know how to do. And my python version is 3.5.2 and pyspark version is 2.0.1. I am looking forward to your reply.

我真的不知道该怎么办。我的python版本是3.5.2，pyspark版本是2.0.1。我期待着您的回复。

Answer 1

回答by Sociopath

First pass sparkContext to SQLContext:

首先将 sparkContext 传递给 SQLContext：

from pyspark import SparkContext
sc = SparkContext("local", "App Name")
sql = SQLContext(sc)

then use createDataFramelike below:

然后使用createDataFrame如下：

spark_df = sql.createDataFrame(data_org)

pandas 如何将pandas数据帧转换为具有rdd属性的pyspark数据帧？

提问by Carmelo Smith

回答by Sociopath

相关推荐

最近更新

标签

pandas 如何将pandas数据帧转换为具有rdd属性的pyspark数据帧？

提问by Carmelo Smith

回答by Sociopath

相关推荐

pandas 如何从填充了 datetime.time 值的系列中提取小时、分钟和秒

pandas python中时间序列中的缺失值

无法导入 Pandas 分析

pandas 将数字转换为熊猫数据框中的 2 位浮点数

相关推荐

最近更新

标签