scala 如何在 Spark 中声明一个空数据集？

Question

提问by Hassan Ali

I am new in Spark and Spark dataset. I was trying to declare an empty dataset using emptyDatasetbut it was asking for org.apache.spark.sql.Encoder. The data type I am using for the dataset is an object of case class Tp(s1: String, s2: String, s3: String).

我是 Spark 和 Spark 数据集的新手。我试图使用声明一个空的数据集，emptyDataset但它要求org.apache.spark.sql.Encoder. 我用于数据集的数据类型是case class Tp(s1: String, s2: String, s3: String).

Answer 1

采纳答案by Vitalii Kotliarenko

All you need is to import implicit encoders from SparkSession instance before you create empty Dataset: import spark.implicits._See full example here

您只需要在创建空数据集之前从 SparkSession 实例导入隐式编码器：import spark.implicits._请参阅此处的完整示例

Answer 2

回答by Hassan Ali

EmptyDataFrame

空数据框

package com.examples.sparksql

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext

object EmptyDataFrame {

  def main(args: Array[String]){

    //Create Spark Conf
    val sparkConf = new SparkConf().setAppName("Empty-Data-Frame").setMaster("local")

    //Create Spark Context - sc
    val sc = new SparkContext(sparkConf)

    //Create Sql Context
    val sqlContext = new org.apache.spark.sql.SQLContext(sc)    

    //Import Sql Implicit conversions
    import sqlContext.implicits._
    import org.apache.spark.sql.Row
    import org.apache.spark.sql.types.{StructType,StructField,StringType}   

    //Create Schema RDD
    val schema_string = "name,id,dept"
    val schema_rdd = StructType(schema_string.split(",").map(fieldName => StructField(fieldName, StringType, true)) )

    //Create Empty DataFrame
    val empty_df = sqlContext.createDataFrame(sc.emptyRDD[Row], schema_rdd)

    //Some Operations on Empty Data Frame
    empty_df.show()
    println(empty_df.count())     

    //You can register a Table on Empty DataFrame, it's empty table though
    empty_df.registerTempTable("empty_table")

    //let's check it ;)
    val res = sqlContext.sql("select * from empty_table")
    res.show

  }

}

scala 如何在 Spark 中声明一个空数据集？

提问by Hassan Ali

采纳答案by Vitalii Kotliarenko

回答by Hassan Ali

相关推荐

最近更新

标签

scala 如何在 Spark 中声明一个空数据集？

提问by Hassan Ali

采纳答案by Vitalii Kotliarenko

回答by Hassan Ali

相关推荐

scala Spark SQL 更改数字格式

scala 使用 Boxfuse 将播放框架应用程序部署到 Amazon AWS 时出现“主机不允许”错误

scala 使用scala读取后如何删除hdfs目录中的文件

scala 如何在 Spark 1.6 的窗口聚合中使用 collect_set 和 collect_list 函数？

相关推荐

最近更新

标签