Python 在 Spark 中将一个简单的单行字符串转换为 RDD

Question

提问by poiuytrez

I have a simple line:

我有一条简单的线：

line = "Hello, world"

I would like to convert it to an RDD with only one element. I have tried

我想将其转换为只有一个元素的 RDD。我试过了

sc.parallelize(line)

But it get:

但它得到：

sc.parallelize(line).collect()
['H', 'e', 'l', 'l', 'o', ',', ' ', 'w', 'o', 'r', 'l', 'd']

Any ideas?

有任何想法吗？

Answer 1

try using List as parameter:

尝试使用 List 作为参数：

sc.parallelize(List(line)).collect()

it returns

它返回

res1: Array[String] = Array(hello,world)

Answer 2

The below code works fine in Python

下面的代码在 Python 中运行良好

sc.parallelize([line]).collect()
['Hello, world']

sc.parallelize([line]).collect()
['你好，世界']

Here we are passing the parameter "line" as a list.

这里我们将参数“line”作为列表传递。