Python Spark DataFrame groupBy 并按降序排序 (pyspark)

Question

提问by rclakmal

I'm using pyspark(Python 2.7.9/Spark 1.3.1) and have a dataframe GroupObject which I need to filter & sort in the descending order. Trying to achieve it via this piece of code.

我正在使用 pyspark(Python 2.7.9/Spark 1.3.1) 并有一个数据框 GroupObject，我需要按降序过滤和排序。试图通过这段代码来实现它。

group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False)

But it throws the following error.

但它会引发以下错误。

sort() got an unexpected keyword argument 'ascending'

Answer 1

采纳答案by zero323

In PySpark 1.3 sortmethod doesn't take ascending parameter. You can use descmethod instead:

在 PySpark 1.3sort方法中不采用升序参数。您可以改用desc方法：

from pyspark.sql.functions import col

(group_by_dataframe
    .count()
    .filter("`count` >= 10")
    .sort(col("count").desc()))

or descfunction:

或desc功能：

from pyspark.sql.functions import desc

(group_by_dataframe
    .count()
    .filter("`count` >= 10")
    .sort(desc("count"))

Both methods can be used with with Spark >= 1.3 (including Spark 2.x).

这两种方法都可以与 Spark >= 1.3（包括 Spark 2.x）一起使用。

Answer 2

回答by Henrique Florêncio

Use orderBy:

使用orderBy：

group_by_dataframe.count().filter("`count` >= 10").orderBy('count', ascending=False)

http://spark.apache.org/docs/2.0.0/api/python/pyspark.sql.html

Answer 3

回答by Narendra Maru

you can use groupBy and orderBy as follows also

您也可以使用 groupBy 和 orderBy 如下

dataFrameWay = df.groupBy("firstName").count().withColumnRenamed("count","distinct_name").sort(desc("count"))

Answer 4

回答by gdoron is supporting Monica

By far the most convenient way is using this:

到目前为止，最方便的方法是使用这个：

df.orderBy(df.column_name.desc())

Doesn't require special imports.

不需要特殊的进口。

Answer 5

回答by Prabhath Kota

In pyspark 2.4.4

在 pyspark 2.4.4 中

1) group_by_dataframe.count().filter("`count` >= 10").orderBy('count', ascending=False)

2) from pyspark.sql.functions import desc
   group_by_dataframe.count().filter("`count` >= 10").orderBy('count').sort(desc('count'))

No need to import in 1) and 1) is short & easy to read,
So I prefer 1) over 2)

无需导入 1) 和 1) 简短易读，
所以我更喜欢 1) 而不是 2)

Python Spark DataFrame groupBy 并按降序排序 (pyspark)

提问by rclakmal

采纳答案by zero323

回答by Henrique Florêncio

回答by Narendra Maru

回答by gdoron is supporting Monica

回答by Prabhath Kota

相关推荐

最近更新

标签

Python Spark DataFrame groupBy 并按降序排序 (pyspark)

提问by rclakmal

采纳答案by zero323

回答by Henrique Florêncio

回答by Narendra Maru

回答by gdoron is supporting Monica

回答by Prabhath Kota

相关推荐

python：对我的复制变量的更改会影响原始变量

Python 类型错误：int() 参数必须是字符串、类似字节的对象或数字，而不是“datetime.datetime”

Python 循环生成子图时出错

需要为 Python 3.5.1 安装 urllib2

相关推荐

最近更新

标签