tm - 前端之家

在R中使用STM预处理文本时删除标点符号的问题

我在使用<code>textProcessor</code>中的函数<code>:STM</code>删除数据框的标点符号时遇到了一些问题，我不知道

前端之家
2022-08-14 • 问答
在术语矩阵中编码西班牙口音R的问题

西班牙文本数据框的重音未正确编码。我需要将所有<code>Ã</code>更改为正确的西班牙口音。 <strong

前端之家
2022-08-13 • 问答
使用TM进行R文本挖掘：文档中是否包含罕见的单词

使用R中的TM软件包，如何为文档打分？我想以某种方式将包含非常独特单词的文档与包含常用单词的文

前端之家
2022-08-11 • 问答
我可以计算并列出在Excel文档中使用过多少次单词吗？

我正在研究票务系统中的一些文本数据。我正在从票证中提取较长的文本字段，需要分析正在使用的单

前端之家
2022-08-09 • 问答
（R）“文本挖掘”如何查看<< PlainTextDocument >>中的详细信息？

刚开始学习文本挖掘，紧接着这本书，我使用tm :: inspect（）来查看数据“粗略”中的第一个信息，但是

前端之家
2022-08-05 • 问答
从数据框中拆分行名

对于文本挖掘项目，我必须调查单词列表随时间的发展情况。为此，我需要对行名进行拆分，以便在公

前端之家
2022-08-03 • 问答
如何从DTM采样75％的行？

我如何采样dtm？我尝试了很多代码，但返回了相同的错误 <blockquote> dtm [splitter，]中的错误：维

前端之家
2022-08-02 • 问答
停用词无法删除R中的词

我尝试使用包含停用词的文本删除词语。但这正在发生。 <pre><code>library(corpus) library(tm) tokpedClean <-

前端之家
2022-08-01 • 问答
如何分别使用TermDocumentMatrix（）和DocumentTermMatrix（）解决数据丢失和错误？数据

我有1000个样本的Twitter数据。并尝试对它们进行tf和tf-idf分析，以衡量推文中每种表情符号的重要性。总

前端之家
2022-07-29 • 问答
如何使用R中的tm包从非英语语料库中删除常见单词的结尾

我正在尝试使用R的tm包对某些网站的意大利用户在此处撰写的评论进行一些文本挖掘。我刮掉了文本，

前端之家
2022-07-24 • 问答
安装R软件包TM时非零退出状态

我是R的新手，目前在安装软件包“ tm”时遇到以下错误。解密方面的任何帮助将不胜感激。 <pre><cod

前端之家
2022-07-15 • 问答
stemCompletion错误：grep（sprintf（“ ^％s”，w），字典，值= TRUE）中的错误：无效的正则表达式，原因为'Missing'）''

我对R中的文本分析还很陌生，我正在尝试使用stemCompletion。这是我刚开始所做的： <pre><code>#C

前端之家
2022-07-10 • 问答
使用TM（或其他软件包）在R中的单词计数：组合1个单词和2个单词的短语

假设我有以下句子： “纽约是一个大城市” 我希望专门将“纽约”条目计为单词计

前端之家
2022-07-08 • 问答
计算没有空格的单词数

我有以下字符串： <pre><code>str1<-" india hit milestone electricity wind solar" </code></pre> 其中包含的

前端之家
2022-07-06 • 问答
两个数据集之间在R中的近似字符串匹配

我有以下包含电影标题和相应类型的数据集，而另一个数据集包含纯文本，其中可能没有引用这些标题

前端之家
2022-07-06 • 问答
将tm Vcorpus导入Quanteda语料库时发生错误

直到我决定昨天更新R（3.6.3）和RStudio（1.2.5042）为止，此代码段都可以正常工作，尽管对我来说这并不

前端之家
2022-07-06 • 问答
在R中获取DocumentTermMatrix错误

我以前的代码如下- <pre class="lang-css prettyprint-override"><code>corpus <- VCorpus(VectorSource(final_data$comment)) co

前端之家
2022-07-05 • 问答
文本挖掘错误：“替换的长度为零”和“要替换的项目数不是替换长度的倍数”

我试图使用for循环从文本中提取多个单词。以下代码行给我一个错误，内容为<code>replacement has leng

前端之家
2022-07-01 • 问答
文本挖掘中的错误：二进制运算符的非数字参数

以下for循环给我一个错误，内容为<code>Error in nenv[i]/nref[i] : non-numeric argument to binary operator</code>。 <pre

前端之家
2022-07-01 • 问答
如何在TermDocumentMatrix（）中同时删除罗马数字和阿拉伯数字？

在<a href="https://www.rdocumentation.org/packages/tm/versions/0.7-7/topics/TermDocumentMatrix" rel="nofollow noreferrer">TermDocumentMa

前端之家
2022-06-28 • 问答
如何使用带有正则表达式值的tm_map，removeWords函数？

我正在使用以前群集的重推用户名列表，我希望将其上载到文档期限矩阵中，以进一步对每个群集进行

前端之家
2022-06-27 • 问答
将readtext与PDF一起使用时发生未知错误

我是从事R语言文本分析的完全新手。我有一个约12000个PDF文档的文件夹，我正尝试将其转换成语

前端之家
2022-06-27 • 问答
通过for循环以不同的名称存储多个语料库

每个股票我有多个文本文档，我想将它们存储为单个语料库。我读过有关创建“列表中的列表”的信息

前端之家
2022-06-26 • 问答
将本地HTML文件读入R进行数据提取

我在文件夹中有一组本地html文件。使用下面的代码，我可以导入数据。下一步，我想合并几个文件（都

前端之家
2022-06-26 • 问答
适用于Linux的Epson JavaPOS ADK在与Eclipse和Java代码一起使用时出现错误

我有一台Epson TM-T88V打印机，并希望使用eclipse用我自己的Java代码打印收据。完成了用于Linux的javapos adk的

前端之家
2022-06-23 • 问答
如何生成汇总表？数据

假设我有一个名为<code>df</code>的下表。 <pre><code>A; B A; B B; C; D C; D; E; F </code></pre> 该行每个元素的

前端之家
2022-06-20 • 问答
在R中映射审阅主题

我有两个数据集，评论数据和主题数据 我的评论数据 的

前端之家
2022-06-19 • 问答
在R-TM包中查找单元格而不是单词

我对R中的tm包有疑问。使用tm包，我希望使用TermDocumentMatrix（）创建一个频率矩阵。我使用下面的代码创

前端之家
2022-06-18 • 问答
尝试为NLP生成频率会生成不正确的错误

我正在尝试为NLP项目生成一些频率和单个语料库，并遇到tm包问题。我的示例数据来自以下链接的博客供

前端之家
2022-06-18 • 问答
查找语料库中各个文档的特定单词的频率-R，TermDocumentMatrix，TM

对于我正在从事的研究项目，我已经将pdf文档读入R，创建了一个语料库和TermDocumentMatrix。我想检查语料

前端之家
2022-06-12 • 问答

首页

下一页
末页