-
从字符串中优化核心信息
带有字符串详细信息的水果列表。我想优化核心信息,即字符串中的水果名称。 其中一些名称中 -
Elasticsearch具有更高级案例的多个建议,例如在句子中间匹配前缀 案例1-在句子中间按前缀匹配案例2-即使完美匹配也能提供结果
我的用例:当用户可以键入他的查询时,我有一个搜索栏。除了常规查询建议之外,我还想向用户显示 -
找不到有效的ngram文档
我正在尝试在python中使用ngram函数,但对于我正在解决的问题却无法正确实现 我尝试插入ngram和ngra -
为什么n克范围没有中性标签和概率?
<pre><code>from sklearn.feature_extraction.text import CountVectorizer vectorizer = CountVectorizer(stop_words = "english", ngram_r -
当以相反的方向返回具有相同单词的短语时,会产生唯一的量子语法或textstat_collocations结果?
在Quanteda中,文本分析过程需要提取2克搭配,因此通常使用<code>tokens_ngram</code>或<code>textstat_collocations</co -
生成N-gram,同时在Apache Lucene中保留空格
我正在尝试使用<code>apache Lucene 5.5.4</code>为给定的一组输入文本生成N-gram。以下是我执行相同操作的Java -
验证上下文列表中是否存在单词
我有一个函数,可将短语分为带有窗口的上下文(如何划分短语的长度) 例子:那是最美好的时光 我们 -
如何使用具有字符级Bigram的朴素贝叶斯创建文本分类器
所以我有一个txt文件,其中包含鸣叫和以分号(;)分隔的类别,如下所示: <pre><code>Brazil's Preside -
蟒蛇;如何在情感分析中显示从ngram中选择的单词?
我有一个Twitter注释数据集,在这里我使用TextBlog计算情绪,然后使用该数据计算哪些词最常用于正面和 -
将文本拆分为ngram,在R
我有一个数据框,其中一栏包含一个较长的笔录。我想使用<code>unnest_tokens</code>将成绩单分割为50个单词 -
蟒蛇;使用NGram情感分析-无法获得前5个字
我按照以下步骤设置CountVectorizer; <pre><code>cv = CountVectorizer(binary=True) X = cv.fit_transform(train_text) X_test -
使用spark.ml库的N克计数和唯一值
我在这里尝试使用此处提供的代码计算N-gram <a href="https://stackoverflow.com/questions/48461076/how-do-i-create-a-set-of- -
PHP Ngrams比较两个数组
有没有更有效的方法来计算和提取大于或等于0.8的数组。 我必须使用两个foreach来完成,效果不是 -
通过一次移动2单位数据来制作4克数据
我有一个数据序列,希望以此为基础构建n-gram。序列外观的摘录如下。 <code>upload to s3 if upload failed then -
什么是n-gram,以及如何对其进行“计数”(C ++)
我有一个C ++的学期项目任务: <blockquote> 简单并行化的典型问题。 输入是一组文件 -
我不能用Python3来表达观点
我正在使用python3,我正在训练用双字表达一个句子,但是解释器给了我一个我听不懂的问题。 <pre><c -
在Elasticsearch中使用ngram标记器通过部分用户名或名称进行用户搜索的正确方法
我想为<a href="https://en.wikipedia.org/wiki/Social_networking_service" rel="nofollow noreferrer">social networking</a>应用程序创 -
使用NLTK时,bigram标记器是否像HMM标记器一样工作?
我一直试图在bigram标记器和HMM标记器之间进行简单的比较。我得到的结果差不多。我已经阅读了bigram标 -
在NLTK中找到n-gram的想法或算法是什么?
我正在使用Python NLTK包从我的语料库生成2克和3克。但是我找不到NLTK如何从语料库生成它们。 我在 -
sklearn oneclass svm KeyError
我的数据集是针对恶意软件和良性的一组系统调用,我对其进行了预处理,现在看起来像这样 <pre><co -
如何将文本拆分为N-gram并获取它们的偏移量
我想将文本拆分为ngram,但还要在文本中获取它们的偏移量。 <br/>我目前正在Python中使用NLTK库,但是我 -
如何从一对输入字符串创建(双字母组)组合对?
我有2个输入字符串,我想生成所有成对的字符串组合,其中每个字符串均来自<strong>不同的输入字符串</ -
困惑是测试集或测试集中特定句子的整体特征吗?
我正在评估我开发的一组语言模型。我想通过困惑度计算来评估此类模型。但是,我有一件事很困惑。</ -
对于语言识别,Unigram比Ngram产生更好的结果
我有一个学校项目,其中包括从推文数据集中识别推文的每种语言。数据集包含西班牙语,葡萄牙语, -
如何在Python文本中查找哪些字符串(在很大的字符串列表中)?
我试图找出新闻文本中的列表名称。 我有一个很大的文本文件(大约100MB),其中包含许多地名。 -
python对n-gram的count()进行优化
我正在尝试使用<code>count()</code>函数对字符串列表中的项目进行计数,并将结果从最大到最小排序。尽管 -
在“熊猫”专栏中仅找到一个世界
我有一个数据帧,该数据帧的列中包含n-gram字符串。我想查找仅包含一个目标词的行。我怎样才能做到 -
Elasticsearch搜索查询优先级(完全匹配->子字符串->模糊)
我正在尝试根据以下优先级按弹性对查询进行排序:首先,它显示所有与搜索字符串完全相同的结果。 -
实时搜索短语的击键汇总
在网站上进行实时搜索后,我得到了一组像这样的字符串: <pre class="lang-rb prettyprint-override"><code>[ & -
如何计算n元语法模型中使用的绝对折扣?
我可以问一些有关实施绝对折扣的问题吗?谢谢您的帮助! 我的毕业设计是关于n-gram语言模型的