pyspark中的NNDescent

2024-04-19 • 问答

我正在建立一个模型，该模型执行最近邻计算，并使用NNDescent python软件包查询索引以找到100个最近邻，并在训练阶段针对每一行的最近邻内100个目标中的目标平均值培训

在新叶子数据集（接近100 MM行）的评分阶段，我想查询训练中创建的索引以找到100个最近的邻居，并在训练中的100个最近的邻居中计算目标的平均值数据集。

我想并行化Pyspark中查询和计算平均值的计分部分。如何在pyspark

中完成

# let us use neighborhoods to estimate treatment effects in the neighborhood

index = NNDescent(leaves,metric='hamming')

# querying 100 nearest neighbors

nearest_neighs = index.query(leaves,k=100)

pyspark中的NNDescent

w419537740 回答：pyspark中的NNDescent

大家都在问