text-mining

计算成对计数时出现内存问题

当我尝试为数据创建pairwise_count时，出现错误“在asMethod（object）中导入内存错误：Cholmod错误'问题太大'

前端之家
2022-08-16 • 问答
从字符串中优化核心信息

带有字符串详细信息的水果列表。我想优化核心信息，即字符串中的水果名称。其中一些名称中

前端之家
2022-08-16 • 问答
从R中的文本字符串中提取N个匹配项？

我在R中使用stringr，并且有一串文字列出了新闻标题。我想提取这些标题，但只显示出现的前N个标题。

前端之家
2022-08-16 • 问答
我无法使用TfidfVectorizer及其方法fit_transform，如何解决此问题？

我正在尝试使用TfidfVectorizer来查找40000篇文章中的哪些文档属于同一主题。在mypath中，我有要分析

前端之家
2022-08-16 • 问答
如何从网络获取数据

我想从特定的网站获取数据。例如，从各个网站获取有关食物的数据。我想获取带有标题，链接，日期

前端之家
2022-08-16 • 问答
如何从文本文件中提取子集并将其存储在单独的文件中？

我目前正在尝试使用Python从文本文件中提取信息。我想从文件中提取一个子集，并将其存储在与文本文

前端之家
2022-08-16 • 问答
在多个文本文件中查找正则表达式或正则表达式列表，并提取匹配的行

<h1>问题</h1> 注意：我擅长正则表达式，但我是Python新手。我已经尝试了尽可能多的阅读，但找不到适合

前端之家
2022-08-15 • 问答
在R中将文本动态添加到PNG

我在excel表格和互联网中都有公寓的平面图和信息，我正在R中对其进行分析。我想向每个房间动

前端之家
2022-08-15 • 问答
带有外来符号的Countvectorizer在词汇表中给出交换后的键值

我正在使用<code>CountVectorizer</code>： <pre><code>from sklearn.feature_extraction.text import CountVectorizer import pandas

前端之家
2022-08-14 • 问答
文本挖掘python键

我有一个多行文件，用制表符分隔，其中第二列中可能包含（或不包含）一些关键字， <blockquote>

前端之家
2022-08-14 • 问答
使用Java / R接口进行文本挖掘

我正在尝试使用JRI进行文件的文本挖掘，这是我第一次这样做。这是我的代码： <pre><code> Rengine ren

前端之家
2022-08-14 • 问答
R中的向量列表-提取向量的元素

我有一个包含一些文本的列表。因此，列表的每个元素都是一个文本。文本是单词的向量。所以我有一

前端之家
2022-08-13 • 问答
如何在使用Python的文本挖掘中设置窗口大小

我是python的初学者，我想解决这个问题。编写一个函数，对YahooFinance序列执行窗口化。窗口大小是参数<c

前端之家
2022-08-13 • 问答
提取文本的一部分并将其格式化为Python？

我想从较大的文本中提取信息（文本）的某些特定部分，然后根据需要的格式将其导出。下面是一个示

前端之家
2022-08-13 • 问答
使用Python进行文本挖掘，提高准确性的态度，单词词典

出于大型项目的目的，我正在对某些文档进行文本挖掘。我的步骤很常见： <ol> <li>全部小写</li> <li>

前端之家
2022-08-13 • 问答
将一项功能从数据框应用到所有其他项

我正在检查Python中文本的相似性。我有大约100条记录的数据集，并准备了一个用于检查相似性的函数-它

前端之家
2022-08-13 • 问答
使用正则表达式从单元格中搜索多个关键字

我必须编写代码以从具有句子分组的excel工作表中搜索正则表达式。我设法找到了代表每个句子的关键词

前端之家
2022-08-13 • 问答
极性表中的双字未在情感器中正确分配分数

在<strong> sentimentr </strong>包中，词典哈希lexicon :: hash_sentiment_jockers_rinker中包含一些双字母组。但是，在

前端之家
2022-08-12 • 问答
从图像中提取文本

我从图像中提取了文本。提取文本后，我得到了非结构化数据。我必须将其转换为结构化形式，但我无

前端之家
2022-08-12 • 问答
在列表中查找单词然后打印以下50行的功能

我有一个巨大的txt文件，我已阅读该文件并将其清除为列表。<br/> 我正在寻找某些单词，所以我写了一

前端之家
2022-08-12 • 问答
使用Java与Apache Spark从LDA模型获取主题词

我不熟悉使用Java使用Apache Spark进行文本挖掘。我正在尝试对文本数据进行LDA。首先，我使用IDF模型提取

前端之家
2022-08-12 • 问答
代码中没有错误，但输出文件为空？

我正在尝试清理一些文本以进行定量的文本分析，但是我似乎在代码中的某个地方错了。即使PyCharm没有

前端之家
2022-08-12 • 问答
熊猫列数据帧python中单词频率计数的输出不一致

所以我在pandas中有一个简单的数据框，其中的一列是tweet消息。每个单元格或行均包含一条推文消息。我

前端之家
2022-08-12 • 问答
使用Python在分隔符采用不同格式时提取两个分隔符之间的文本

我是一名新的Python程序员（在R中有更多经验），使用运行Windows 10的笔记本电脑，使用Pycharm社区版v2019 2.

前端之家
2022-08-12 • 问答
筛选单词列表中不常用单词的最快方法

我有一个数据集，其中包含csv格式的令牌列表，如下所示： <pre><code>song, tokens aaa,"['everyon',

前端之家
2022-08-12 • 问答
根据R中之前的特定单词和之后的％符号提取字符串或值

我有一个包含数千行段落的Text列，并且我想提取“ <code>Capacity > x%</code>”的值。操作符号可以是<code>&

前端之家
2022-08-12 • 问答
使用TM进行R文本挖掘：文档中是否包含罕见的单词

使用R中的TM软件包，如何为文档打分？我想以某种方式将包含非常独特单词的文档与包含常用单词的文

前端之家
2022-08-11 • 问答
如何在R文本挖掘中更改termDocumentmatrix的语言？

<h2>我需要在termDocumentmatrix函数中将语言更改为土耳其语。你能帮我吗？</h2> <h1>此代码有效。我达到了我

前端之家
2022-08-11 • 问答
如何在Python中的术语文档矩阵中使用PCA？

我有一个词干列表： <pre><code>text = ['uplink platz windows zukunft spiel effizient virtuell zukunft thema spiel zukunf

前端之家
2022-08-11 • 问答
哪个深度学习库可以适合我的文本数据

我目前正在研究一个项目，我想问你哪种深度学习库是最好的。因此，我得到了一个由1000x行组成

前端之家
2022-08-11 • 问答

首页

下一页
末页