scala 在 spark 条件下计算数据帧的行数

Question

提问by user1735076

I am trying this:

我正在尝试这个：

df=dfFromJson:
{"class":"name 1","stream":"science"}
{"class":"name 1","stream":"arts"}
{"class":"name 1","stream":"science"}
{"class":"name 1","stream":"law"}
{"class":"name 1","stream":"law"}
{"class":"name 2","stream":"science"}
{"class":"name 2","stream":"arts"}
{"class":"name 2","stream":"law"}
{"class":"name 2","stream":"science"}
{"class":"name 2","stream":"arts"}
{"class":"name 2","stream":"law"}


df.groupBy("class").agg(count(col("stream")==="science") as "stream_science", count(col("stream")==="arts") as "stream_arts", count(col("stream")==="law") as "stream_law")

This is not giving expected output, how can I achieve it in fastest way?

这没有给出预期的输出，我怎样才能以最快的方式实现它？

Answer 1

回答by zero323

It is not exactly clear what is the expected output but I guess you want something like this:

目前还不清楚预期的输出是什么，但我想你想要这样的东西：

import org.apache.spark.sql.functions.{count, col, when}

val streams = df.select($"stream").distinct.collect.map(_.getString(0))
val exprs = streams.map(s => count(when($"stream" === s, 1)).alias(s"stream_$s"))

df
  .groupBy("class")
  .agg(exprs.head, exprs.tail: _*)

// +------+--------------+----------+-----------+
// | class|stream_science|stream_law|stream_arts|
// +------+--------------+----------+-----------+
// |name 1|             2|         2|          1|
// |name 2|             2|         2|          2|
// +------+--------------+----------+-----------+

If you don't care about names and have only one group column you can simply use DataFrameStatFunctions.crosstab:

如果您不关心名称并且只有一个组列，则可以简单地使用DataFrameStatFunctions.crosstab：

df.stat.crosstab("class", "stream")

// +------------+---+----+-------+
// |class_stream|law|arts|science|
// +------------+---+----+-------+
// |      name 1|  2|   1|      2|
// |      name 2|  2|   2|      2|
// +------------+---+----+-------+

Answer 2

回答by quantum_random

You can just group by both the columns instead of grouping by a single column and then filtering. Because I am not fluent enough in Scala, below is the code snippet in Python. Note, I have changed your col names from "stream" and "class" to "dept" and "name" to avoid name conflicts with Spark's "stream" and "class" types.

您可以只按两列分组，而不是按单个列分组然后过滤。因为我对 Scala 不够流利，下面是 Python 中的代码片段。请注意，我已将您的 col 名称从“stream”和“class”更改为“dept”和“name”，以避免与 Spark 的“stream”和“class”类型发生名称冲突。

import pyspark.sql
from pyspark.sql import Row

hc = HiveContext(sc)

obj = [
    {"class":"name 1","stream":"science"},
    {"class":"name 1","stream":"arts"}
    {"class":"name 1","stream":"science"},
    {"class":"name 1","stream":"law"},
    {"class":"name 1","stream":"law"},
    {"class":"name 2","stream":"science"},
    {"class":"name 2","stream":"arts"},
    {"class":"name 2","stream":"law"},
    {"class":"name 2","stream":"science"},
    {"class":"name 2","stream":"arts"},
    {"class":"name 2","stream":"law"}
]
rdd = sc.parallelize(obj).map(labmda i: Row(dept=i['stream'], name=i['class']))
df = hc.createDataFrame(rdd)
df.groupby(df.dept, df.name).count().collect()

This results in the following output -

这导致以下输出 -

[
    Row(dept='science', name='name 1', count=2), 
    Row(dept='science', name='name 2', count=2), 
    Row(dept='arts', name='name 1', count=1), 
    Row(dept='arts', name='name 2', count=2), 
    Row(dept='law', name='name 1', count=2), 
    Row(dept='law', name='name 2', count=2)
]

scala 在 spark 条件下计算数据帧的行数

提问by user1735076

回答by zero323

回答by quantum_random

相关推荐

最近更新

标签

scala 在 spark 条件下计算数据帧的行数

提问by user1735076

回答by zero323

回答by quantum_random

相关推荐

scala 如何使用指定的模式创建一个空的 DataFrame？

scala spark检索20多条记录

scala spark DataFrame "as" 方法的使用

scala 是否可以在 spark sql 中以编程方式对列进行别名？

相关推荐

最近更新

标签