df = pd.DataFrame({'source': [1000,1000,1001,1002,1002],'acceptability': [1,1,0],'sentence': ['I do not know','I does not know','you are stupid','you is stupid','she is bad for python','she are bad for python']})
我想做的是比较两个共享相同来源的句子。拆分或合并(无论如何..)后,我想在两个句子之间使用 Jaccard Similarity。
我不知道如何用循环来完成。
也许原型是这样的。
来源:1000,可接受性:1,句子:
来源:1000,可接受性:0,句子:
....
来源:1001,可接受性:1,句子:
来源:1001,可接受性:0,句子:
...
在用loop station拆分DataFrame之后,我希望基于Jaccard Similarity比较那些对。 如果对的相似度得分太低,我想从 DataFrame 中删除该对。
我真的需要你们的帮助!!
感谢帮助我!!