pyspark中的NNDescent

我正在建立一个模型,该模型执行最近邻计算,并使用NNDescent python软件包查询索引以找到100个最近邻,并在训练阶段针对每一行的最近邻内100个目标中的目标平均值培训

在新叶子数据集(接近100 MM行)的评分阶段,我想查询训练中创建的索引以找到100个最近的邻居,并在训练中的100个最近的邻居中计算目标的平均值数据集。

我想并行化Pyspark中查询和计算平均值的计分部分。如何在pyspark

中完成
# let us use neighborhoods to estimate treatment effects in the neighborhood

index = NNDescent(leaves,metric='hamming')

# querying 100 nearest neighbors

nearest_neighs = index.query(leaves,k=100)
w419537740 回答:pyspark中的NNDescent

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/3164434.html

大家都在问