tokenize

如何在spaCy库，Python中设置注释以将标签视为名词

我有这句话： <pre><code>[x] moved to [y] in [z]. </code></pre> 如何设置[x]，[y]作为名词，[z]作为日期时间

前端之家
2022-08-10 • 问答
一种有效的方法来“识别” Spacy文档，然后应用POS标签

我希望使用“ sentencizer”，因为我想创建一些需要遵循每个句子中的规则的自定义POS分组，因此，我不

前端之家
2022-08-10 • 问答
标记化数学表达式-如何知道使用了多少个隐式乘法？

我有一个有趣的问题。我正在开发将标记数学表达式的程序，如以下示例所示： <code>'(3+4)*sin(4

前端之家
2022-08-09 • 问答
如何在句子和单词中标记大文本

我正在与nltk一起使用葡萄牙语进行交流。这是我的文字： <pre><code>import numpy as np from nltk.corp

前端之家
2022-08-09 • 问答
如何在Elasticsearch中根据最大单词数对句子进行标记？

我有一个字符串，例如“这是美好的一天” 我应该使用什么标记器或标记器与标记过滤器的什么组合来

前端之家
2022-08-08 • 问答
如何在Elasticsearch中将某些单词组合成令牌？

对于像“这是美好的一天”这样的字符串，我想将字符串标记为标记： “这是美好的一天，美好的一天

前端之家
2022-08-08 • 问答
如何在C＃中拆分字符串以获取以下结果？

<pre><code>LoadBalancer</code></pre> <pre><code>Input: Senior Business Developer </code></pre> 有人可以建议用C＃做到这一点

前端之家
2022-08-07 • 问答
如何在抽象语法树之前编辑语法树？

我想了解如何有效地使用stdlib <a href="https://docs.python.org/3/library/parser.html" rel="nofollow noreferrer"><code>parser</c

前端之家
2022-08-06 • 问答
ParserError：标记数据时出错。 C错误：第4行中预期有7个字段，在读取csv文件熊猫时看到10个错误

我正在尝试使用熊猫读取<code>csv</code>文件 <pre><code>df1 = pd.read_csv('panda_error.csv', header=None, sep=&#3

前端之家
2022-08-06 • 问答
在弹性搜索查询中获取不匹配完整字符串的数据

我的数据以以下格式存储在弹性搜索中 <pre><code> { "_index": "wallet", "_

前端之家
2022-08-06 • 问答
在Python中按段落对书籍进行标记

我正在研究一个NLP项目，并试图按段落标记“大期望”，然后存储到列表中。我需要执行此操作以执行

前端之家
2022-08-06 • 问答
python nltk循环打印标题而不是值

我在csv文件中有标记化的句子，但是当我尝试在for循环中删除停用词时，它将停止打印该词，并打印所

前端之家
2022-08-05 • 问答
用非单引号将非单词字符分隔的单词标记化

我尝试实现以下方法：将输入解析为“单词标记”：由非单词字符分隔的单词字符序列。但是，如果将

前端之家
2022-08-03 • 问答
在python pandas中读取CSV文件时获取ParserError

我正在尝试使用pandas在python中读取Cars.csv文件，但越来越 ParserError：标记数据时出错。 C错误：第3行中应

前端之家
2022-08-02 • 问答
如何告诉Spacy不要使用retokenizer分隔带有撇号的单词？

我在这里遇到问题。我将使用spacy的单词标记器。但是我有一些限制，例如我的分词器不会拆分包含撇号

前端之家
2022-08-02 • 问答
在PHP中标记bash shell命令的最佳方法是什么？

我处于一种情况，我需要（可能）多字符串bash命令并将其压缩为一个不包含任何换行符或回车符的字符

前端之家
2022-08-02 • 问答
MLlib regexTokenizer忽略重音符号

我正在通过pySpark（Python3）测试MLlib令牌生成器： <pre><code>while</code></pre> 结果是这样的： <pre><

前端之家
2022-08-01 • 问答
如何从TF Hub获取Bert标记程序的vocab文件

我正在尝试使用TensorFlow Hub中的Bert并构建令牌生成器，这就是我正在做的事情： <pre class="lang-py pretty

前端之家
2022-07-31 • 问答
如何解析大型DOCX文件并挑选在python中出现n次的关键字/字符串？

我有非常大的DOCX文件，我希望通过它们进行解析，并且能够建立一个能够显示文档中单词/字符串出现频

前端之家
2022-07-31 • 问答
在Python正则表达式中使用排列捕获重复的子模式

我正在尝试标记由可以以任何顺序出现的子模式组成的字符串。子模式是下划线，字母或数字。例如：<

前端之家
2022-07-31 • 问答
如何在C中将令牌字符中的值设置为这个名为customerData [] []的数组？

我刚刚开始学习C语言，我需要程序方面的帮助。这是代码。<br/> 问题： <ol> <li>这是什么？ customerData

前端之家
2022-07-28 • 问答
如何从Elasticsearch标记器中删除一个定界符？

我正在使用Elasticsearch 6.8进行文本搜索。而且我意识到Elasticsearch标记生成器通过使用此处列出的定界符<a

前端之家
2022-07-27 • 问答
Tfidf矢量化器

我从文本审阅中获取了一个用于预测情绪的数据集，最初，我清理了数据（删除了标点符号，删除了停

前端之家
2022-07-26 • 问答
如何为使用Mkdocs生成的一组html页面实现良好的搜索系统？

我正在使用Mkdocs创建文章（静态HTML页面集）。这些文档的问题在于，由Mkdocs创建的搜索系统非常基础，

前端之家
2022-07-26 • 问答
如何在不同版本的Linux中从命令结果中提取字段？

我试图使用以下命令提取进程大小： <pre><code>size=`ps -eo vsz,pid | grep $pid | cut -'d' -f1` </code></pre>

前端之家
2022-07-25 • 问答
令牌生成器是否可用于Elasticsearch中的索引编制或查询？

我正在看Elasticsearch 6.8中的<code>tokenizer</code>。我知道它定义了我们在建立索引时如何将文本标记为单词

前端之家
2022-07-25 • 问答
如何将字符串拆分为单词和数字？

我需要用JavaScript标记表示库存中某个项目的字符串，以获取单词和数字，例如：给出字符串'Plane

前端之家
2022-07-25 • 问答
文本分类算法不起作用

我正在尝试让我的分类接受文本而不是数字。处理数据，承载大量拉出的文章，我希望分类算法显示要

前端之家
2022-07-24 • 问答
从子词标记编码中获取词级编码

我正在研究使用预训练的BERT模型（“无基数的bert-base”）从一堆句子中提取上下文相关的词级编码。

前端之家
2022-07-23 • 问答
文字长度超过上限-如何增加？

<pre><code>int a[1000],c[1000],ara[10000],t,n,i,j; cin>>n; set<int>st; for(i=0; i<n; i++) { cin>>a[i]; st.inser

前端之家
2022-07-23 • 问答