tfidfvectorizer

可以在干扰中从TfidfVectorizer删除停用词列表

我有一个很大的文本语料库，而sklearn创建了200万个（不频繁的）停用词，是否需要将其存储到磁盘上？

前端之家
2022-08-16 • 问答
如何在nltk POS数据.....上应用TFIDF？

我在熊猫的DataFrame的评论栏中应用了nltk POS功能。我有了新功能，但是当我尝试在该功能上应用TFIDF向量

前端之家
2022-08-16 • 问答
从头开始构建TF-IDF矢量化器

我正在尝试从头开始构建tf-idf矢量化器。我计算了tf和idf，但是在计算tf-idf时遇到了麻烦。这是代码：</p

前端之家
2022-08-16 • 问答
从大型语料库获取文档子集的功能

我有一个看似简单的问题，但我不知道。我的语料库很大：大约3000多个文档，并且我正在使用Tfidfectoriz

前端之家
2022-08-15 • 问答
使用toarray（）方法显示内存错误

<pre><code>xtrain,xtest,ytrain,ytest = train_test_split(df_train['clean_comments'],df_train['label'].values,test_size=0.3,sh

前端之家
2022-08-15 • 问答
这是结合使用DecisionTreeClassifier，tfidf矢量化器和onevsrest分类器的正确方法吗？

我正在结合使用DecisionTreeClassifier，tfidf矢量化器和onevsrest分类器。这是代码- <pre><code>tfidf_vectorizer =

前端之家
2022-08-14 • 问答
识别语料库中每个文档唯一的单词的更好方法

我创建了一个小型测试语料库： <pre><code>How to set password to .xls file using NPOI.DLL in asp.net, below is the code

前端之家
2022-08-13 • 问答
Numpy串联中的内存错误（np.concatenate）

我正在使用TfidfVectorizer，为此，我需要连接我的训练和测试数据，这会给我带来内存错误。 <pre><code>

前端之家
2022-08-13 • 问答
如何通过将元组更改为...来完成元组的fit_transform，或能够完成数据的fit_transform？

第一个问题：我阅读了此错误，并说它是类型：tuple，所以我很困惑该错误是什么以及如何解决该错误。

前端之家
2022-08-12 • 问答
无法在阵列上创建阵列/内核染色

我正在运行这段代码 <pre><code>vector_ext = pd.DataFrame(tfidf.transform(brands['features']).toarray(),columns=tfidf

前端之家
2022-08-10 • 问答
Python：清单物件没有属性'lower'-但语料库已经小写

我的语料库是一系列包含Twitter数据的文档，并且据我所知（甚至包括表情符号）已经过清理和预处理-以

前端之家
2022-08-10 • 问答
TFIDF矢量化器：具有多个元素的数组的真值不明确。使用a.any（）或a.all（）

我一直试图将TFIDF矢量化器应用于gensim LDA模型，但没有成功。看来我必须使用any（）或all（），但是我

前端之家
2022-08-10 • 问答
如何通过TfidfVectorizer应用Kfold？

在与Tfidf进行K折交叉验证时遇到问题。它给了我这个错误 <pre><code>ValueError: setting an array element with a s

前端之家
2022-08-09 • 问答
处理大型数据集进行分析

我希望有人可以帮助我。我是处理大型数据集的新手，需要帮助优化运行时间和内存使用情况。

前端之家
2022-08-09 • 问答
TF-IDF向量示例（HELP）

嘿，我采用了3种不同的方法，但是我无法确定哪种方法是使用TF-IDF的正确方法：第一个代码确实

前端之家
2022-08-07 • 问答
如何在数据集上计算TF-IDF？

我有文章的数据集，这些文章中每个单词出现了多少：如何计算TF-IDF？ <pre><code>import matplotlib.pyplot a

前端之家
2022-08-06 • 问答
Scikit Learn TF-IDF Vectorizer：如何获取IDF值最高的前n个术语

我有一个任务来获取最高的IDF值。例如 <pre><code> corpus = [ 'this is the first document', 'thi

前端之家
2022-08-05 • 问答
预测数组的形状很奇怪

数据集包含3列：comment，parent_comment和label（0或1）。我尝试预测y_test的标签，但有错误 <pre><code>Found i

前端之家
2022-08-01 • 问答
使tfidf矢量化器作为文档数量作为特征返回

我正在使用适合 N 文档的Sklearn TfidfVectorizer，然后我想根据每个文档中tfidf得分获得单词的矢量表

前端之家
2022-07-30 • 问答
如何在NMF的sklearn实现中计算相干分数？

我正在尝试构建一个实用程序，每两天NMF模型将处理一次数据集。为此，我为主题数提供了一个初始值

前端之家
2022-07-30 • 问答
Tfidf矢量化器

我从文本审阅中获取了一个用于预测情绪的数据集，最初，我清理了数据（删除了标点符号，删除了停

前端之家
2022-07-26 • 问答
TfidfVectorizer赋予高权重停用词

给出以下代码： <pre class="lang-py prettyprint-override"><code>import pandas as pd from sklearn.feature_extraction.text impor

前端之家
2022-07-26 • 问答
TF-IDF和BoW技术是否不兼容？

我研究了<a href="http://datameetsmedia.com/bag-of-words-tf-idf-explained/" rel="nofollow noreferrer">difference between TF-IDF and Bo

前端之家
2022-07-26 • 问答
Python软TF-IDF函数

我正在寻找一个tf / idf软库。目前，我在程序中使用<a href="https://scikit-learn.org/stable/modules/generated/sklearn.fe

前端之家
2022-07-25 • 问答
将TfidfVectorizer与Punkt在云函数中一起使用

我目前对<code>TfidfVectorizer</code>的理解是，它需要<code>nltk.download("punkt")</code>在对输入数据进行转换

前端之家
2022-07-24 • 问答
如何对实时数据使用MultinomialNB模型？

我是机器学习的新手。我正在尝试为CRM项目开发情感分析应用程序。当用户输入跟踪评论时，我的程序

前端之家
2022-07-24 • 问答
将语料库拟合到矢量化器时出错

所以我现在想用我的语料库和我的词典制作tf-idf矩阵。这是我的语料库</

前端之家
2022-07-23 • 问答
为什么不能使用Count Vectorizer和Logistic回归在管道/ GridSearchCV中将“ min_df = 3”作为参数运行？

我正在尝试使用带有Count Vectorizer和Logistic回归的管道来运行GridSearchCV，但是当我输入“ min_df = 3”作为参

前端之家
2022-07-19 • 问答
TfidfVectorizer的单词频率

我正在尝试使用TF-IDF计算消息传递数据帧的词频。到目前为止，我有这个 <pre><code>import nltk from sklearn

前端之家
2022-07-19 • 问答
每个标签的TFIDF分开

使用TFIDFvectorizor（SKlearn），如何分别基于每个标签的tfidf得分获得单词排名。我想要每个标签（正

前端之家
2022-07-18 • 问答

首页

下一页
末页