tokenize

如何为 sklearn 的 CountVectorizer 编写自定义标记器以将所有 XML 标记以及打开和关闭标记之间的所有文本视为标记

我有这种形式的数据： <pre><code><?xml version="1.0" encoding="utf-8"?> <!DOCTYPE html PUBLIC "

前端之家
2022-04-16 • 问答
使用熊猫（python）计算数据框中的标记词

我在 Python 的数据框中创建了一个标记化数据（文本）我只想对标记化数据进行计数，并有一个输

前端之家
2022-04-16 • 问答
使用 count 函数计算 python 中数据帧中的标记化数据

我在 Python 的数据框中创建了一个标记化数据（文本）我只想对标记化数据进行计数，并有一个输

前端之家
2022-04-16 • 问答
在 BertTokenizerFast 中加载自训练的 tokenzier 失败

我训练了一个分词器， <pre><code>tokenizer = ByteLevelBPETokenizer() tokenizer.train(files=paths, vocab_size=20_000, min_fre

前端之家
2022-04-16 • 问答
带有序言错误的自然语言处理

我是使用 prolog 的新手，我正在尝试以这种方式解析和翻译文本： <pre><code>?- go. |: All boys run. s(np(det(al

前端之家
2022-04-16 • 问答
带有 BERT 标记器的 CUDA 并行 for 循环

我需要对一批 8 个 input_ids 张量进行去标记化，并对每个单句张量应用一个函数。我有一个<code>function()</

前端之家
2022-04-15 • 问答
使用大量文件时标记数据时出错

我正在尝试从 > 3,000 个文件的列表中为每个文件创建一个数据框。当我使用少量文件时，我的代码工作

前端之家
2022-04-15 • 问答
nltk.tokenize.TweetTokenizer 下划线处理不一致

我正在处理一些社交媒体数据，并注意到 nltk.tokenize.TweetTokenizer 处理下划线不一致。我一生都无法弄清

前端之家
2022-04-15 • 问答

首页
上一页

末页