scala 如何在 Spark 1.6 的窗口聚合中使用 collect_set 和 collect_list 函数？

Question

提问by Dzmitry Haikov

In Spark 1.6.0 / Scala, is there an opportunity to get collect_list("colC")or collect_set("colC").over(Window.partitionBy("colA").orderBy("colB")?

在 Spark 1.6.0 / Scala 中，是否有机会获得collect_list("colC")或collect_set("colC").over(Window.partitionBy("colA").orderBy("colB")？

Answer 1

回答by Ramesh Maharjan

Given that you have dataframeas

既然你有dataframe作为

+----+----+----+
|colA|colB|colC|
+----+----+----+
|1   |1   |23  |
|1   |2   |63  |
|1   |3   |31  |
|2   |1   |32  |
|2   |2   |56  |
+----+----+----+

You can Windowfunctions by doing the following

您可以Window通过执行以下操作

import org.apache.spark.sql.functions._
import org.apache.spark.sql.expressions._
df.withColumn("colD", collect_list("colC").over(Window.partitionBy("colA").orderBy("colB"))).show(false)

Result:

结果：

+----+----+----+------------+
|colA|colB|colC|colD        |
+----+----+----+------------+
|1   |1   |23  |[23]        |
|1   |2   |63  |[23, 63]    |
|1   |3   |31  |[23, 63, 31]|
|2   |1   |32  |[32]        |
|2   |2   |56  |[32, 56]    |
+----+----+----+------------+

Similar is the result for collect_setas well. But the order of elements in the final setwill not be in order as with collect_list

也有类似的结果collect_set。但是最终元素的顺序set不会像collect_list

df.withColumn("colD", collect_set("colC").over(Window.partitionBy("colA").orderBy("colB"))).show(false)
+----+----+----+------------+
|colA|colB|colC|colD        |
+----+----+----+------------+
|1   |1   |23  |[23]        |
|1   |2   |63  |[63, 23]    |
|1   |3   |31  |[63, 31, 23]|
|2   |1   |32  |[32]        |
|2   |2   |56  |[56, 32]    |
+----+----+----+------------+

If you remove orderByas below

如果你删除orderBy如下

df.withColumn("colD", collect_list("colC").over(Window.partitionBy("colA"))).show(false)

result would be

结果将是

+----+----+----+------------+
|colA|colB|colC|colD        |
+----+----+----+------------+
|1   |1   |23  |[23, 63, 31]|
|1   |2   |63  |[23, 63, 31]|
|1   |3   |31  |[23, 63, 31]|
|2   |1   |32  |[32, 56]    |
|2   |2   |56  |[32, 56]    |
+----+----+----+------------+

I hope the answer is helpful

我希望答案有帮助

scala 如何在 Spark 1.6 的窗口聚合中使用 collect_set 和 collect_list 函数？

提问by Dzmitry Haikov

回答by Ramesh Maharjan

相关推荐

最近更新

标签

scala 如何在 Spark 1.6 的窗口聚合中使用 collect_set 和 collect_list 函数？

提问by Dzmitry Haikov

回答by Ramesh Maharjan

相关推荐

无法在 Intellij IDE 中的 Scala 中找到或加载主类

如何从 Scala Spark 中的 Excel (xls,xlsx) 文件构造数据框？

“value $ 不是 StringContext 的成员” - 缺少 Scala 插件？

scala Spark RDD 默认分区数

相关推荐

最近更新

标签