-
R函数以预定义的文档术语矩阵导入文本数据
我已经导入了一些有关某些产品说明的文本数据。文本数据被转换为语料库,进行了一些数据预处理, -
ValueError:使用1个要素(以3列为目标)在数据集中评估性能时输入形状不良
我正在尝试在linnerud数据集上实现SVR,在这里我只想使用数据集中的一项功能,即chinup和要考虑的目标数 -
AgglomerativeClustering()。fit(Y)和zip(* pairs)python
我有功能 (X,Y)= transform_text(read_dataset(“ SMSSpamCollection”)) <pre><code>{for x,y in zip(*X.nonzero()): -
比较多维列表并返回相交的索引
我是Python的新手,请多多包涵。 我尝试根据<a href="https://machinelearningmastery.com/tutorial-to-implement-k-nea -
在文本挖掘中对K-means进行分类
目标是创建一个计算机生成的新闻网站,以汇总来自世界各地不同新闻来源的头条新闻: 看看质 -
数据集元数据的文件格式
我想知道并比较尽可能多的文件格式,这些文件格式可以存储要素,属性或字段的元数据 属性的 -
为什么可以将不同的股票合并在一起以建立一个单一的预测模型? 进一步阅读
给定n个具有股票A的d个特征的样本,我们可以建立一个(d + 1)维线性模型来预测利润。但是,在一些书 -
如果第一个元素相同,则将两个列表合并到一个列表中
我使用了这个pyspark代码: <pre><code>signatures = signatures.groupByKey().map(lambda x: (x[0], [elem for elem in x[1].__ite -
您如何在数据挖掘/数据科学中基于关联规则找到集群?
假设您有一个数据库 <pre><code>Transcation-ID Item_list 1 [bread, butter, milk, diaper] 2 -
如何在大量向量中找到几个相似的向量?
假定大量(例如十亿个)向量(例如存储在数据库中)。所有向量均具有相同数量的数值(例如,每个 -
SQL Data Miner存储库
我在回购数据挖掘器上遇到问题。 我有11.2.0.1企业版版本。当我想安装仓库并显示此消息时。如果我下 -
Pyspark无法腌制本地对象(功能列表)
我正在尝试在pyspark中实现LSH,我的实现完美地适用于小型文档集,但是当文档集很大时,我会收到此错 -
使用XGBoost时对二进制功能进行一种热编码
我很清楚,将分类特征与基于树的模型(例如随机森林和梯度增强)一起使用时,无需从N级分类特征中 -
不同的数据类型会影响特征选择算法的规范化
假设我们的数据集具有1000个数据(矩阵行)和700个要素(矩阵列)。我想运行各种类型的特征选择算法 -
如何查找一个数据集是否受另一个数据集影响?
我对这种数据挖掘非常陌生。我有两个数据集,分别是人类发展指数和预期寿命指数,我想知道预期寿 -
数据挖掘中的时间序列数据和序列数据有什么区别?
有人可以举例说明时间序列和序列数据之间的区别吗? -
带有二进制分类器的多类分类Java开发
我正在尝试解决此数据挖掘练习,而不是WEKA。 这是第一个问题,您能帮我解决吗? 1)编写Java程序需要 -
如何训练一对多格式的文本数据或排列数据?
[<img src="https://i.stack.imgur.com/71XFZ.jpg" alt="fefe"/>] 我想知道如何以给定的格式排列文本数据,以便开发深 -
先验索引错误
这是代码 <pre><code>import numpy as np import matplotlib.pyplot as plt import pandas as pd from apyori import apriori store_da -
如何使用排列特征重要性获取值
我有一个5K(和60个特征)记录的数据集,主要用于二进制分类。 请注意,此<a href="https://stackoverfl -
轮廓图和PCA图具有相同的颜色
我的目标是在PCA减少图旁边绘制轮廓图。我的想法是,为了理解,我想在两个图表上使用相同的颜色。 -
检查一个大文件.csv并替换,并将其分类为一列
我需要检查一个大文件.csv并替换,然后将其分类为<code>dataframe['value']</code>列。 这是我的代 -
从数据库创建搜索保留域的脚本
<a href="https://i.stack.imgur.com/T6kL4.jpg" rel="nofollow noreferrer">https://i.stack.imgur.com/T6kL4.jpg</a> 我需要来自 -
我的代码中的波斯字体损坏,尽管以前可以正常工作
我处理了一个包含波斯语和英语数据的数据框。我没有任何问题,我编码正确,并且运行良好。这次我 -
总结质心簇的结果
我正在使用<code>WEKA</code>对虹膜数据集进行<strong>集群分析</strong>。我想知道如何使用质心给定的值总结 -
什么是组异常和概念异常?
我有一个项目,可以在数据集中找到组异常和概念异常。但是我不知道这些含义。我在互联网上搜索, -
在r中拟合非线性模型
我才刚刚开始数据挖掘,所以我想预测温度。 这是我的数据: <a href="https://data.gov.in/sites/default/files/dataf -
利用时间戳数据计算用户相似度的方法
我正在研究基于相似度的方法,以根据他们在应用程序上的活动来查找最相似和不相似的用户。 -
使用波斯语在R中进行文本挖掘
我正在寻找一些v。简单数据挖掘(频率,二字组,三字母组)的方法,这些数据是我在波斯语中收集并 -
为什么KS曲线以(0,0)开头?
<em> KS </em>曲线的垂直轴为<code>tpr,fpr</code>和(<code>tpr-fpr</code>),水平轴为阈值。 <code>tpr=(tp/tp+fn