scala 如何对apache spark scala中多列的数据进行排序？

Question

提问by Niranjanp

I have data set like this which I am taking from csv file and converting it into RDD using scala.

我有这样的数据集，我从 csv 文件中获取并使用 scala 将其转换为 RDD。

+-----------+-----------+----------+
| recent    | Freq      | Monitor  |
+-----------+-----------+----------+
|        1  |       1234 |   199090|
|        4  |       2553|    198613|
|        6  |       3232 |   199090|
|        1  |       8823 |   498831|
|        7  |       2902 |   890000|
|        8  |       7991 |   081097|
|        9  |       7391 |   432370|
|        12 |       6138 |   864981|
|        7  |       6812 |   749821|
+-----------+-----------+----------+

How to sort the data on all columns ?

如何对所有列上的数据进行排序？

Thanks

谢谢

Answer 1

回答by Steve

Suppose your input RDD/DataFrame is called df.

假设您的输入 RDD/DataFrame 称为 df。

To sort recentin descending order, Freqand Monitorboth in ascending you can do:

要按recent降序排序，Freq并按Monitor升序排序，您可以执行以下操作：

import org.apache.spark.sql.functions._

val sorted = df.sort(desc("recent"), asc("Freq"), asc("Monitor"))

You can use df.orderBy(...)as well, it's an alias of sort().

您也可以使用df.orderBy(...)，它是sort().

Answer 2

回答by Zahiro Mor

csv.sortBy(r => (r.recent, r.freq))or equivalent should do it

csv.sortBy(r => (r.recent, r.freq))或等效的应该这样做

scala 如何对apache spark scala中多列的数据进行排序？

提问by Niranjanp

回答by Steve

回答by Zahiro Mor

相关推荐

最近更新

标签

scala 如何对apache spark scala中多列的数据进行排序？

提问by Niranjanp

回答by Steve

回答by Zahiro Mor

相关推荐

线程“main”中的 Apache Spark 异常 java.lang.NoClassDefFoundError: scala/collection/GenTraversableOnce$class

从 Scala 脚本中退出 Spark-shell

scala 使用 Spark 数据帧进行单元测试

Scala Spark DataFrame：dataFrame.select 多列给定列名序列

相关推荐

最近更新

标签