scala 如何根据列值是否在 Spark DataFrame 中的一组字符串中过滤行

Question

提问by zzztimbo

Is there a more elegant way of filtering based on values in a Set of String?

是否有更优雅的基于一组字符串中的值进行过滤的方法？

def myFilter(actions: Set[String], myDF: DataFrame): DataFrame = {
  val containsAction = udf((action: String) => {
    actions.contains(action)
  })

  myDF.filter(containsAction('action))
}

In SQL you can do

在 SQL 中你可以做

select * from myTable where action in ('action1', 'action2', 'action3')

Answer 1

回答by Justin Pihony

How about this:

这个怎么样：

myDF.filter("action in (1,2)")

OR

或者

import org.apache.spark.sql.functions.lit       
myDF.where($"action".in(Seq(1,2).map(lit(_)):_*))

OR

或者

import org.apache.spark.sql.functions.lit       
myDF.where($"action".in(Seq(lit(1),lit(2)):_*))

Additional support will be added to make this cleaner in 1.5

将添加额外的支持以在 1.5 中使这个更清洁

scala 如何根据列值是否在 Spark DataFrame 中的一组字符串中过滤行

提问by zzztimbo

回答by Justin Pihony

相关推荐

最近更新

标签

scala 如何根据列值是否在 Spark DataFrame 中的一组字符串中过滤行

提问by zzztimbo

回答by Justin Pihony

相关推荐

scala 如果 Slick 3.0.0 中不存在则插入

使用 Spark 和 Scala 计算字数

scala 将 RDD 转换为 JSON 对象

scala Apache Spark，将“CASE WHEN ... ELSE ...”计算列添加到现有数据帧

相关推荐

最近更新

标签