循环优化以删除预先识别的n-gram

我有一个预先确定的单词df_rem列表(由子猫分组),需要从数据中获取的n元语法keywords(由子猫分组)列表中将其删除。这个想法是针对{df_rem)中的每个n-gram remove(如果关键字)lower n-gramsfuzz.token_set_ratio = 100,{{1} 1}}(在关键字中)如果我得到子串匹配,则在(df_rem)中每个ngram;如果在remove中得到{{{ 1}}。

示例:df_rem有一个三字组-“快速褐狐”。我想删除包含“快速,棕色或狐狸”一词的关键字列表中的所有双字母组和字母组合。我想删除所有这三个词的四元语法,但是它们应该是子字符串(“快速的棕色狐狸跳”)。我想用所有这三个词来标记所有四元组,但可以将其弄乱(“迅速跳起棕色的狐狸”)

higher order n-grams

我希望首先识别3个列表中的所有单词,然后看看删除它们是否有意义。有没有一种方法可以优化此代码。它目前需要一个多小时来处理df_rem中约500个单词的列表和关键字列表中的一百万个单词的列表。我还尝试遍历列表,而不是下面的代码中生成的集。

有什么方法可以优化我的代码,从而大大减少运行时间?任何帮助,将不胜感激。在此先感谢:)

iCMS 回答:循环优化以删除预先识别的n-gram

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/1989540.html

大家都在问