我想从两个已经工作的函数构建一个UDF.我正在尝试将md5哈希计算为现有Spark Dataframe的新列.
def md5(s: String): String = { toHex(MessageDigest.getInstance("MD5").digest(s.getBytes("UTF-8")))} def toHex(bytes: Array[Byte]): String = bytes.map("%02x".format(_)).mkString("")
结构(到目前为止我有什么)
val md5_hash: // UDF Implementation val sqlfunc = udf(md5_hash) val new_df = load_df.withColumn("New_MD5_Column",sqlfunc(col("Duration")))
不幸的是,我不知道如何将该函数作为UDF实现.
解决方法
您可以使用以下命名为md5的udf函数
import org.apache.spark.sql.functions._ def toHex(bytes: Array[Byte]): String = bytes.map("%02x".format(_)).mkString("") def md5 = udf((s: String) => toHex(MessageDigest.getInstance("MD5").digest(s.getBytes("UTF-8")))) val new_df = load_df.withColumn("New_MD5_Column",md5(col("Duration")))