scala 为 Delta Data 更新 Spark Dataframe 的窗口函数 row_number 列

Question

提问by RaAm

I need to update the dataframes's row number column for the delta data. I have implemented the base load's row number as below:

我需要为增量数据更新数据帧的行号列。我已经实现了基本负载的行号，如下所示：

Input Data:

输入数据：

val base = List(List("001", "a", "abc"), List("001", "a", "123"),List("003", "c", "456") ,List("002", "b", "dfr"), List("003", "c", "ytr"))
  .map(row => (row(0), row(1), row(2)))

val DS1 = base.toDF("KEY1", "KEY2" ,"VAL")

DS1.show()

+----+----+---+
|KEY1|KEY2|VAL|
+----+----+---+
| 001|   a|abc|
| 001|   a|123|
| 003|   c|456|
| 002|   b|dfr|
| 003|   c|ytr|
+----+----+---+

Now I have added the row number using a window function as below :

现在我使用窗口函数添加了行号，如下所示：

val baseDF =  DS1.select(col("KEY1"), col("KEY2"), col("VAL") ,row_number().over(Window.partitionBy(col("KEY1"), col("KEY2")).orderBy(col("KEY1"), col("KEY2").asc)).alias("Row_Num"))
baseDF.show()

+----+----+---+-------+
|KEY1|KEY2|VAL|Row_Num|
+----+----+---+-------+
|001 |a   |abc|1      |
|001 |a   |123|2      |
|002 |b   |dfr|1      |
|003 |c   |456|1      |
|003 |c   |ytr|2      |
+----+----+---+-------+

Now the delta load comes a below :

现在增量负载如下：

val delta = List(List("001", "a", "y45") ,List("002", "b", "444"))
  .map(row => (row(0), row(1), row(2)))

val DS2 = delta.toDF("KEY1", "KEY2" ,"VAL")
DS2.show()

+----+----+---+
|KEY1|KEY2|VAL|
+----+----+---+
| 001|   a|y45|
| 002|   b|444|
+----+----+---+

So the expected updated result should be:

所以预期的更新结果应该是：

baseDF.show()

|KEY1|KEY2|VAL|Row_Num|
+----+----+---+-------+
|001 |a   |abc|1      |
|001 |a   |123|2      |
| 001|   a|y45|3      | -----> Delta record
|002 |b   |dfr|1      |
| 002|   b|444|2      | -----> Delta record 
|003 |c   |456|1      |
|003 |c   |ytr|2      |
+----+----+---+-------+

Any suggestions to implement this solution using dataframes/datasets? Can we achieve the above solution with spark rdd's zipWithIndex?

使用数据框/数据集实施此解决方案的任何建议？我们可以用 spark rdd's 来实现上述解决方案zipWithIndex吗？

Answer 1

回答by Leo C

One way to add the delta with updated row numbers is to: 1) add column Row_Numwith a large number in DS2, 2) union baseDFwith it, and 3) calculate the new row numbers, as shown below:

添加具有更新行号的增量的一种方法是：1) 在中添加Row_Num具有大量数字的列DS2，2)baseDF与其并集，以及 3) 计算新的行号，如下所示：

import org.apache.spark.sql.functions._
import org.apache.spark.sql.expressions.Window

val combinedDF = baseDF.union(
  DS2.withColumn("Row_Num", lit(Long.MaxValue))
)

val resultDF = combinedDF.select(
  col("KEY1"), col("KEY2"), col("VAL"), row_number().over(
    Window.partitionBy(col("KEY1"), col("KEY2")).orderBy(col("Row_Num"))
  ).alias("New_Row_Num")
)

resultDF.show
+----+----+---+-----------+
|KEY1|KEY2|VAL|New_Row_Num|
+----+----+---+-----------+
| 003|   c|456|          1|
| 003|   c|ytr|          2|
| 002|   b|dfr|          1|
| 002|   b|444|          2|
| 001|   a|abc|          1|
| 001|   a|123|          2|
| 001|   a|y45|          3|
+----+----+---+-----------+

scala 为 Delta Data 更新 Spark Dataframe 的窗口函数 row_number 列

提问by RaAm

回答by Leo C

相关推荐

最近更新

标签

scala 为 Delta Data 更新 Spark Dataframe 的窗口函数 row_number 列

提问by RaAm

回答by Leo C

相关推荐

scala 在 Spark 中读取 Avro 文件

scala 如何从DataFrame获取最后一行？

在 Scala 中创建 SparkSession 对象以在 unittest 和 spark-submit 中使用的最佳实践

scala 将二进制文件读入 Spark

相关推荐

最近更新

标签