我正在建立一个模型,该模型执行最近邻计算,并使用NNDescent python软件包查询索引以找到100个最近邻,并在训练阶段针对每一行的最近邻内100个目标中的目标平均值培训
在新叶子数据集(接近100 MM行)的评分阶段,我想查询训练中创建的索引以找到100个最近的邻居,并在训练中的100个最近的邻居中计算目标的平均值数据集。
我想并行化Pyspark中查询和计算平均值的计分部分。如何在pyspark
中完成# let us use neighborhoods to estimate treatment effects in the neighborhood
index = NNDescent(leaves,metric='hamming')
# querying 100 nearest neighbors
nearest_neighs = index.query(leaves,k=100)