循环优化以删除预先识别的n-gram

2024-04-19 • 问答

我有一个预先确定的单词df_rem列表（由子猫分组），需要从数据中获取的n元语法keywords（由子猫分组）列表中将其删除。这个想法是针对{df_rem）中的每个n-gram remove（如果关键字）lower n-grams，fuzz.token_set_ratio = 100，{{1} 1}}（在关键字中）如果我得到子串匹配，则在（df_rem）中每个ngram；如果在remove中得到{{{ 1}}。

示例：df_rem有一个三字组-“快速褐狐”。我想删除包含“快速，棕色或狐狸”一词的关键字列表中的所有双字母组和字母组合。我想删除所有这三个词的四元语法，但是它们应该是子字符串（“快速的棕色狐狸跳”）。我想用所有这三个词来标记所有四元组，但可以将其弄乱（“迅速跳起棕色的狐狸”）

higher order n-grams

我希望首先识别3个列表中的所有单词，然后看看删除它们是否有意义。有没有一种方法可以优化此代码。它目前需要一个多小时来处理df_rem中约500个单词的列表和关键字列表中的一百万个单词的列表。我还尝试遍历列表，而不是下面的代码中生成的集。

有什么方法可以优化我的代码，从而大大减少运行时间？任何帮助，将不胜感激。在此先感谢：）

循环优化以删除预先识别的n-gram

iCMS 回答：循环优化以删除预先识别的n-gram

大家都在问