tokenize

如何在阅读行中分割行并将其保存在其他列表中？

这是我的代码 <pre><code>with open('file.txt', 'r') as source: # Indentation polTerm = [line.strip().sp

前端之家
2022-08-16 • 问答
在Spacy中向令牌生成器添加一些自定义单词

我有一句话，希望看到如下所示的标记。 <pre><code>Sentence: "[x] works for [y] in [z]." Tokens: ["["

前端之家
2022-08-16 • 问答
Elasticsearch-用大写字母标记术语，例如“ TheStarTech” => [The，Star，Tech]

Elasticsearch是否支持令牌化程序以大写字符对术语进行令牌化，例如：将<code>TheStarTech</code>令牌化为术语

前端之家
2022-08-16 • 问答
Elasticsearch-将术语合并为一个

例如，Elasticsearch将<code>The Whole Foods Market</code>令牌化为术语<code>[the, whole, foods, market]</code>，是否有令牌

前端之家
2022-08-16 • 问答
如何解决“ TypeError：无法在类似字节的对象上使用字符串模式”

我正在尝试标记新闻文章，其中我从URL中提取了文本。但是，当我尝试使用send_tokenize时，似乎遇到了将

前端之家
2022-08-16 • 问答
Lucene-获取停用词位置

我正在使用Lucene <a href="http://lucene.apache.org/core//8_0_0/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html" r

前端之家
2022-08-15 • 问答
为什么在python中读取文件时出现“错误标记数据错误”？

这是代码 <a href="https://i.stack.imgur.com/Silkl.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/Silkl.png" alt="

前端之家
2022-08-15 • 问答
具有条款意义的ElasticSearch分析器

这是我的目标：根据某些文本进行汇总。让我们举一些例子： <blockquote> 管理咨询

前端之家
2022-08-15 • 问答
如果R中的数据框位置包含一个单词，则创建布尔var

因此，我正在尝试查看数据框位置内是否包含某个单词。我认为问题在控制台输出上非常清楚。谢谢，

前端之家
2022-08-15 • 问答
如何找到字符串中每个单词的长度？

我写了一个代码，它接受一个句子，并输出一行中的每个单词。但是我也想在每个单词旁边写上它的大

前端之家
2022-08-14 • 问答
PPI对Perl的Heredoc的不正确标记

我正在使用<a href="https://metacpan.org/pod/PPI" rel="nofollow noreferrer">PPI</a>来对Perl文件进行标记。但是，heredoc似

前端之家
2022-08-14 • 问答
NLTK Word令牌化不返回任何内容

我正在尝试标记一个句子，并且我相信代码是正确的，但是没有输出。可能是什么问题呢？这是代码。</

前端之家
2022-08-13 • 问答
如何创建标记和词干的函数

我的代码 <pre><code>def tokenize_and_stem(text): tokens = [sent for sent in nltk.sent_tokenize(text) for word in nltk.word_

前端之家
2022-08-13 • 问答
BertTokenizer-编码和解码序列时会出现多余的空格

使用HuggingFace的《变形金刚》时，我遇到了编码和解码方法的问题。我有以下字符串： <pre><cod

前端之家
2022-08-13 • 问答
偶尔，我如何确保始终将特定字符视为完整令牌？

为了方便起见，我希望像“€”，“ $”或“¥”这样的字符始终被视为令牌。但是，似乎有时它们已成

前端之家
2022-08-13 • 问答
使用spacy，如何确保字母序列永远不会拆分为标记

我正在寻找一种方法来确保序列<code>"#*"</code>出现在文本中的任何时间，spacy给了我令牌<code>"#*&

前端之家
2022-08-13 • 问答
生成N-gram，同时在Apache Lucene中保留空格

我正在尝试使用<code>apache Lucene 5.5.4</code>为给定的一组输入文本生成N-gram。以下是我执行相同操作的Java

前端之家
2022-08-12 • 问答
Python标记化文本：如何将标记化列表转换为字符串？

我正在尝试标记文本 <pre><code>from nltk.tokenize import sent_tokenize, word_tokenize text = '''The team used

前端之家
2022-08-12 • 问答
我可以使用高棉语言的标记化输入文件和自定义词汇文件从头开始对BERT模型进行预训练吗？

我想知道是否可以将自己的标记化/分段文档（以及我自己的vocab文件）用作<code>create_pretraining_data.py</code

前端之家
2022-08-12 • 问答
Elasticsearch标准标记器行为和单词边界

在这种情况下，我不确定标准标记器（由默认标准分析器使用）为什么会表现如下：<br/> -如果我使用

前端之家
2022-08-12 • 问答
在预先标记的文本上使用空格

我想使用spacy处理已经预先加标记的文本。将令牌列表解析为spacy无效。 <pre class="lang-py prettyprint-overr

前端之家
2022-08-12 • 问答
如何在python上存储和读取我的逻辑操作

我正在编写一个程序，使用一些参数和逻辑运算来过滤我的数据。我有很多具有其特征的教室数

前端之家
2022-08-11 • 问答
尝试对数组进行切片会导致“数组索引过多”。我可以填充阵列来解决此问题吗？

我已经看到许多有关此特定错误的问题。我相信我的问题与众不同，足以保证自己的职位。 <stron

前端之家
2022-08-11 • 问答
分割char数组并将其存储到向量中

我已经在网上搜索过，但是找不到一种方法来用空格（“”）分割char数组并将每个单词存储到一个向量

前端之家
2022-08-11 • 问答
C：strtok传递分段错误

我正在尝试逐行读取文件，并标记每行，这些行的字符串由空格和制表符分隔。但是，当我运行程序时

前端之家
2022-08-11 • 问答
在Python中拆分字符串并捕获组

我有以下字符串： <pre><code>'Cc1cc([N+](=O)[O-])ccc1OCC(C)(O)CN1CCN(Cc2ccccc2)CC1' </code></pre> ，并想要捕

前端之家
2022-08-11 • 问答
在每个ID的多个文档的ID级别获取n-gram计数（对文档进行令牌化，然后聚合或tokenizer跳过参数）

我有一个包含ID和文本的数据框，并且想获取每个ID的n-gram计数（例如，一个ID项矩阵）。作为一

前端之家
2022-08-11 • 问答
Python Pandas错误标记数据：如何避免因长度不同而导致的错误

我正在尝试使用pandas read_csv函数读取* .dat文件。 <pre><code>df = pd.read_csv(file, skiprows=0, header=None, sep=&#34

前端之家
2022-08-11 • 问答
使用NLTK和熊猫通过3个句子对文本进行标记

我在熊猫中有一个数据框-1列名为“文本”。文本的长度不同，但是我需要将每个文本标记为3个句子，

前端之家
2022-08-11 • 问答
尝试使用Elasticsearch 7.4搜索“测试”

我实现了搜索功能，并且我正在尝试搜索包含“。”的字符串。要么 ”-” 例如a-test或a.test 由于

前端之家
2022-08-11 • 问答

首页

下一页
末页