-
在R中使用STM预处理文本时删除标点符号的问题
我在使用<code>textProcessor</code>中的函数<code>:STM</code>删除数据框的标点符号时遇到了一些问题,我不知道 -
在术语矩阵中编码西班牙口音R的问题
西班牙文本数据框的重音未正确编码。我需要将所有<code>Ã</code>更改为正确的西班牙口音。 <strong -
使用TM进行R文本挖掘:文档中是否包含罕见的单词
使用R中的TM软件包,如何为文档打分?我想以某种方式将包含非常独特单词的文档与包含常用单词的文 -
我可以计算并列出在Excel文档中使用过多少次单词吗?
我正在研究票务系统中的一些文本数据。我正在从票证中提取较长的文本字段,需要分析正在使用的单 -
(R)“文本挖掘”如何查看<< PlainTextDocument >>中的详细信息?
刚开始学习文本挖掘,紧接着这本书,我使用tm :: inspect()来查看数据“粗略”中的第一个信息,但是 -
从数据框中拆分行名
对于文本挖掘项目,我必须调查单词列表随时间的发展情况。为此,我需要对行名进行拆分,以便在公 -
如何从DTM采样75%的行?
我如何采样dtm?我尝试了很多代码,但返回了相同的错误 <blockquote> dtm [splitter,]中的错误:维 -
停用词无法删除R中的词
我尝试使用包含停用词的文本删除词语。但这正在发生。 <pre><code>library(corpus) library(tm) tokpedClean <- -
如何分别使用TermDocumentMatrix()和DocumentTermMatrix()解决数据丢失和错误? 数据
我有1000个样本的Twitter数据。并尝试对它们进行tf和tf-idf分析,以衡量推文中每种表情符号的重要性。总 -
如何使用R中的tm包从非英语语料库中删除常见单词的结尾
我正在尝试使用R的tm包对某些网站的意大利用户在此处撰写的评论进行一些文本挖掘。我刮掉了文本, -
安装R软件包TM时非零退出状态
我是R的新手,目前在安装软件包“ tm”时遇到以下错误。解密方面的任何帮助将不胜感激。 <pre><cod -
stemCompletion错误:grep(sprintf(“ ^%s”,w),字典,值= TRUE)中的错误:无效的正则表达式,原因为'Missing')''
我对R中的文本分析还很陌生,我正在尝试使用stemCompletion。 这是我刚开始所做的: <pre><code>#C -
使用TM(或其他软件包)在R中的单词计数:组合1个单词和2个单词的短语
假设我有以下句子: “纽约是一个大城市” 我希望<em>专门</em>将“纽约”条目计为单词计 -
计算没有空格的单词数
我有以下字符串: <pre><code>str1<-" india hit milestone electricity wind solar" </code></pre> 其中包含的 -
两个数据集之间在R中的近似字符串匹配
我有以下包含电影标题和相应类型的数据集,而另一个数据集包含纯文本,其中可能没有引用这些标题 -
将tm Vcorpus导入Quanteda语料库时发生错误
直到我决定昨天更新R(3.6.3)和RStudio(1.2.5042)为止,此代码段都可以正常工作,尽管对我来说这并不 -
在R中获取DocumentTermMatrix错误
我以前的代码如下- <pre class="lang-css prettyprint-override"><code>corpus <- VCorpus(VectorSource(final_data$comment)) co -
文本挖掘错误:“替换的长度为零”和“要替换的项目数不是替换长度的倍数”
我试图使用for循环从文本中提取多个单词。 以下代码行给我一个错误,内容为<code>replacement has leng -
文本挖掘中的错误:二进制运算符的非数字参数
以下for循环给我一个错误,内容为<code>Error in nenv[i]/nref[i] : non-numeric argument to binary operator</code>。 <pre -
如何在TermDocumentMatrix()中同时删除罗马数字和阿拉伯数字?
在<a href="https://www.rdocumentation.org/packages/tm/versions/0.7-7/topics/TermDocumentMatrix" rel="nofollow noreferrer">TermDocumentMa -
如何使用带有正则表达式值的tm_map,removeWords函数?
我正在使用以前群集的重推用户名列表,我希望将其上载到文档期限矩阵中,以进一步对每个群集进行 -
将readtext与PDF一起使用时发生未知错误
我是从事R语言文本分析的完全新手。 我有一个约12000个PDF文档的文件夹,我正尝试将其转换成语 -
通过for循环以不同的名称存储多个语料库
每个股票我有多个文本文档,我想将它们存储为单个语料库。 我读过有关创建“列表中的列表”的信息 -
将本地HTML文件读入R进行数据提取
我在文件夹中有一组本地html文件。使用下面的代码,我可以导入数据。下一步,我想合并几个文件(都 -
适用于Linux的Epson JavaPOS ADK在与Eclipse和Java代码一起使用时出现错误
我有一台Epson TM-T88V打印机,并希望使用eclipse用我自己的Java代码打印收据。完成了用于Linux的javapos adk的 -
如何生成汇总表? 数据
假设我有一个名为<code>df</code>的下表。 <pre><code>A; B A; B B; C; D C; D; E; F </code></pre> 该行每个元素的 -
在R中映射审阅主题
我有两个数据集,<strong>评论数据</strong>和<strong>主题数据</strong> 我的<strong>评论数据</strong> 的 -
在R-TM包中查找单元格而不是单词
我对R中的tm包有疑问。使用tm包,我希望使用TermDocumentMatrix()创建一个频率矩阵。我使用下面的代码创 -
尝试为NLP生成频率会生成不正确的错误
我正在尝试为NLP项目生成一些频率和单个语料库,并遇到tm包问题。我的示例数据来自以下链接的博客供 -
查找语料库中各个文档的特定单词的频率-R,TermDocumentMatrix,TM
对于我正在从事的研究项目,我已经将pdf文档读入R,创建了一个语料库和TermDocumentMatrix。我想检查语料