频道导航

scala – 如何将DataFrame中的struct映射到case类？

2020-10-27 Scala 前端之家

前端之家收集整理的这篇文章主要介绍了scala – 如何将DataFrame中的struct映射到case类？，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

在我的应用程序中的某个时刻,我有一个DataFrame,其中包含从案例类创建的Struct字段.现在我想将它转换/映射回case类类型：

import spark.implicits._
case class Location(lat: Double,lon: Double)

scala> Seq((10,Location(35,25)),(20,Location(45,35))).toDF
res25: org.apache.spark.sql.DataFrame = [_1: int,_2: struct<lat: double,lon: double>]

scala> res25.printSchema
root
 |-- _1: integer (nullable = false)
 |-- _2: struct (nullable = true)
 |    |-- lat: double (nullable = false)
 |    |-- lon: double (nullable = false)

基本的：

res25.map(r => {
   Location(r.getStruct(1).getDouble(0),r.getStruct(1).getDouble(1))
}).show(1)

看起来很脏
有没有更简单的方法？

解决方法

在Spark 1.6中,如果要保留保留的类型信息,请使用数据集(DS),而不是DataFrame(DF).

import spark.implicits._
case class Location(lat: Double,35))).toDS
res25: org.apache.spark.sql.Dataset[(Int,Location)] = [_1: int,lon: double>]

scala> res25.printSchema
root
 |-- _1: integer (nullable = false)
 |-- _2: struct (nullable = true)
 |    |-- lat: double (nullable = false)
 |    |-- lon: double (nullable = false)

它会给你数据集[(Int,Location)].现在,如果你想再次回到它的case类原点,那么就这样做：

scala> res25.map(r => r._2).show(1)
+----+----+
| lat| lon|
+----+----+
|35.0|25.0|
+----+----+

但是,如果你想坚持DataFrame API,因为它是动态类型的性质,那么你必须像这样编码它：

scala> res25.select("_2.*").map(r => Location(r.getDouble(0),r.getDouble(1))).show(1)
+----+----+
| lat| lon|
+----+----+
|35.0|25.0|
+----+----+

上一篇：scala – 如何在递归上下文中解释延下一篇：scala – Lagom的嵌入式Kafka在杀死

猜你在找的Scala相关文章

Scala的存在类型

Scala的存在类型存在类型也叫existential type，是对类型做抽象的一种方法。可以在你不知...

作者：前端之家时间：2020-12-21

Scala教程之:Option-Some-None

文章目录Option和SomeOption和NoneOption和模式匹配在java 8中，为了避免NullPointerExce...

作者：前端之家时间：2020-12-21

Scala教程之:静态类型

文章目录泛类型型变协变逆变不变类型上界类型下界内部类抽象类型复合类型自类型隐式参数隐...

作者：前端之家时间：2020-12-21

Scala的自定义类型标记

Scala的自定义类型标记 Scala中有很多千奇百怪的符号标记，看起来是那么的独特，就像是一杯...

作者：前端之家时间：2020-12-21

Scala教程之:面向对象的scala

文章目录面向对象的scalaUnified TypesClassesTraits 面向对象的scala 我们知道Scala是一种...

作者：前端之家时间：2020-12-21

Scala教程之:Enumeration

Enumeration应该算是程序语言里面比较通用的一个类型，在scala中也存在这样的类型，我们看...

作者：前端之家时间：2020-12-21

scala教程之:可见性规则

文章目录publicProtectedprivatescoped private 和 scoped protected 和java很类似，scala...

作者：前端之家时间：2020-12-21

Scala教程之:Either

在之前的文章中我们提到了Option，scala中Option表示存在0或者1个元素，如果在处理异常的时...

作者：前端之家时间：2020-12-21

Scala教程之:函数式的Scala

文章目录高阶函数强制转换方法为函数方法嵌套多参数列表样例类比较拷贝模式匹配密封类单例...

作者：前端之家时间：2020-12-21

Scala教程之:可扩展的scala

文章目录隐式类限制条件字符串插值s 字符串插值器f 插值器raw 插值器自定义插值器 Scala是...

作者：前端之家时间：2020-12-21

编程分类

Linux Windows CentOS Ubuntu Nginx WebService Scala Memcache Apache Redis Docker Bash Azure Tomcat LNMP Shell 数据结构服务器运维网络安全

最新文章