-
如何在spaCy库,Python中设置注释以将标签视为名词
我有这句话: <pre><code>[x] moved to [y] in [z]. </code></pre> 如何设置[x],[y]作为名词,[z]作为日期时间 -
一种有效的方法来“识别” Spacy文档,然后应用POS标签
我希望使用“ sentencizer”,因为我想创建一些需要遵循每个句子中的规则的自定义POS分组,因此,我不 -
标记化数学表达式-如何知道使用了多少个隐式乘法?
我有一个有趣的问题。我正在开发将标记数学表达式的程序,如以下示例所示: <code>'(3+4)*sin(4 -
如何在句子和单词中标记大文本
我正在与nltk一起使用葡萄牙语进行交流。 这是我的文字: <pre><code>import numpy as np from nltk.corp -
如何在Elasticsearch中根据最大单词数对句子进行标记?
我有一个字符串,例如“这是美好的一天” 我应该使用什么标记器或标记器与标记过滤器的什么组合来 -
如何在Elasticsearch中将某些单词组合成令牌?
对于像“这是美好的一天”这样的字符串,我想将字符串标记为标记: “这是美好的一天,美好的一天 -
如何在C#中拆分字符串以获取以下结果?
<pre><code>LoadBalancer</code></pre> <pre><code>Input: Senior Business Developer </code></pre> 有人可以建议用C#做到这一点 -
如何在抽象语法树之前编辑语法树?
我想了解如何有效地使用stdlib <a href="https://docs.python.org/3/library/parser.html" rel="nofollow noreferrer"><code>parser</c -
ParserError:标记数据时出错。 C错误:第4行中预期有7个字段,在读取csv文件熊猫时看到10个错误
我正在尝试使用熊猫读取<code>csv</code>文件 <pre><code>df1 = pd.read_csv('panda_error.csv', header=None, sep= -
在弹性搜索查询中获取不匹配完整字符串的数据
我的数据以以下格式存储在弹性搜索中 <pre><code> { "_index": "wallet", "_ -
在Python中按段落对书籍进行标记
我正在研究一个NLP项目,并试图按段落标记“大期望”,然后存储到列表中。我需要执行此操作以执行 -
python nltk循环打印标题而不是值
我在csv文件中有标记化的句子,但是当我尝试在for循环中删除停用词时,它将停止打印该词,并打印所 -
用非单引号将非单词字符分隔的单词标记化
我尝试实现以下方法:将输入解析为“单词标记”:由非单词字符分隔的单词字符序列。但是,如果将 -
在python pandas中读取CSV文件时获取ParserError
我正在尝试使用pandas在python中读取Cars.csv文件,但越来越 ParserError:标记数据时出错。 C错误:第3行中应 -
如何告诉Spacy不要使用retokenizer分隔带有撇号的单词?
我在这里遇到问题。我将使用spacy的单词标记器。但是我有一些限制,例如我的分词器不会拆分包含撇号 -
在PHP中标记bash shell命令的最佳方法是什么?
我处于一种情况,我需要(可能)多字符串bash命令并将其压缩为一个不包含任何换行符或回车符的字符 -
MLlib regexTokenizer忽略重音符号
我正在通过pySpark(Python3)测试MLlib令牌生成器: <pre><code>while</code></pre> 结果是这样的: <pre>< -
如何从TF Hub获取Bert标记程序的vocab文件
我正在尝试使用TensorFlow Hub中的Bert并构建令牌生成器,这就是我正在做的事情: <pre class="lang-py pretty -
如何解析大型DOCX文件并挑选在python中出现n次的关键字/字符串?
我有非常大的DOCX文件,我希望通过它们进行解析,并且能够建立一个能够显示文档中单词/字符串出现频 -
在Python正则表达式中使用排列捕获重复的子模式
我正在尝试标记由可以以任何顺序出现的子模式组成的字符串。 子模式是下划线,字母或数字。例如:< -
如何在C中将令牌字符中的值设置为这个名为customerData [] []的数组?
我刚刚开始学习C语言,我需要程序方面的帮助。这是代码。<br/> 问题: <ol> <li>这是什么? customerData -
如何从Elasticsearch标记器中删除一个定界符?
我正在使用Elasticsearch 6.8进行文本搜索。而且我意识到Elasticsearch标记生成器通过使用此处列出的定界符<a -
Tfidf矢量化器
我从文本审阅中获取了一个用于预测情绪的数据集,最初,我清理了数据(删除了标点符号,删除了停 -
如何为使用Mkdocs生成的一组html页面实现良好的搜索系统?
我正在使用Mkdocs创建文章(静态HTML页面集)。这些文档的问题在于,由Mkdocs创建的搜索系统非常基础, -
如何在不同版本的Linux中从命令结果中提取字段?
我试图使用以下命令提取进程大小: <pre><code>size=`ps -eo vsz,pid | grep $pid | cut -'d' -f1` </code></pre> -
令牌生成器是否可用于Elasticsearch中的索引编制或查询?
我正在看Elasticsearch 6.8中的<code>tokenizer</code>。我知道它定义了我们在建立索引时如何将文本标记为单词 -
如何将字符串拆分为单词和数字?
我需要用JavaScript标记表示库存中某个项目的字符串,以获取单词和数字,例如: 给出字符串'Plane -
文本分类算法不起作用
我正在尝试让我的分类接受文本而不是数字。处理数据,承载大量拉出的文章,我希望分类算法显示要 -
从子词标记编码中获取词级编码
我正在研究使用预训练的BERT模型(“无基数的bert-base”)从一堆句子中提取上下文相关的词级编码。 -
文字长度超过上限-如何增加?
<pre><code>int a[1000],c[1000],ara[10000],t,n,i,j; cin>>n; set<int>st; for(i=0; i<n; i++) { cin>>a[i]; st.inser