我想使用Java Spark中的逗号分隔符从Dataframe
的一列创建多列。
我在DataFrame
的一列中有一个带有逗号的值,并希望使用逗号分隔符分成多列。我有以下代码:
Dataset<Row> dfreq1 = spark.read().format("json").option("inferSchema","true")
.load("new.json");
dfreq1.show(5,300);
dfreq1.createOrReplaceTempView("tempdata");
Dataset<Row> dfreq2 = dfreq1.sqlContext().sql("select split(names,'|') from tempdata");
dfreq2.show(5,300);
输入
+----------------------------+
| name|
+-----------------------------+
|ABC1,XYZ1,GDH1,KLN1,JUL1,HAI1|
|ABC2,XYZ2,GDH2,KLN2,JUL2,HAI2|
+-----------------------------+
输出
+-----------------------------+
| Cl1| Cl2| Cl3| Cl3|Cl4 | Cl4|
+-----------------------------+
|ABC1|XYZ1|GDH1|KLN1|JUL1|HAI1|
|ABC2|XYZ2|GDH2|KLN2|JUL2|HAI2|
+-----------------------------+