data-mining

R函数以预定义的文档术语矩阵导入文本数据

我已经导入了一些有关某些产品说明的文本数据。文本数据被转换为语料库，进行了一些数据预处理，

前端之家
2022-08-16 • 问答
ValueError：使用1个要素（以3列为目标）在数据集中评估性能时输入形状不良

我正在尝试在linnerud数据集上实现SVR，在这里我只想使用数据集中的一项功能，即chinup和要考虑的目标数

前端之家
2022-08-15 • 问答
AgglomerativeClustering（）。fit（Y）和zip（* pairs）python

我有功能（X，Y）= transform_text（read_dataset（“ SMSSpamCollection”）） <pre><code>{for x,y in zip(*X.nonzero()):

前端之家
2022-08-15 • 问答
比较多维列表并返回相交的索引

我是Python的新手，请多多包涵。我尝试根据<a href="https://machinelearningmastery.com/tutorial-to-implement-k-nea

前端之家
2022-08-15 • 问答
在文本挖掘中对K-means进行分类

目标是创建一个计算机生成的新闻网站，以汇总来自世界各地不同新闻来源的头条新闻：看看质

前端之家
2022-08-14 • 问答
数据集元数据的文件格式

我想知道并比较尽可能多的文件格式，这些文件格式可以存储要素，属性或字段的元数据属性的

前端之家
2022-08-14 • 问答
为什么可以将不同的股票合并在一起以建立一个单一的预测模型？进一步阅读

给定n个具有股票A的d个特征的样本，我们可以建立一个（d + 1）维线性模型来预测利润。但是，在一些书

前端之家
2022-08-13 • 问答
如果第一个元素相同，则将两个列表合并到一个列表中

我使用了这个pyspark代码： <pre><code>signatures = signatures.groupByKey().map(lambda x: (x[0], [elem for elem in x[1].__ite

前端之家
2022-08-13 • 问答
您如何在数据挖掘/数据科学中基于关联规则找到集群？

假设您有一个数据库 <pre><code>Transcation-ID Item_list 1 [bread, butter, milk, diaper] 2

前端之家
2022-08-13 • 问答
如何在大量向量中找到几个相似的向量？

假定大量（例如十亿个）向量（例如存储在数据库中）。所有向量均具有相同数量的数值（例如，每个

前端之家
2022-08-13 • 问答
SQL Data Miner存储库

我在回购数据挖掘器上遇到问题。我有11.2.0.1企业版版本。当我想安装仓库并显示此消息时。如果我下

前端之家
2022-08-13 • 问答
Pyspark无法腌制本地对象（功能列表）

我正在尝试在pyspark中实现LSH，我的实现完美地适用于小型文档集，但是当文档集很大时，我会收到此错

前端之家
2022-08-13 • 问答
使用XGBoost时对二进制功能进行一种热编码

我很清楚，将分类特征与基于树的模型（例如随机森林和梯度增强）一起使用时，无需从N级分类特征中

前端之家
2022-08-12 • 问答
不同的数据类型会影响特征选择算法的规范化

假设我们的数据集具有1000个数据（矩阵行）和700个要素（矩阵列）。我想运行各种类型的特征选择算法

前端之家
2022-08-12 • 问答
如何查找一个数据集是否受另一个数据集影响？

我对这种数据挖掘非常陌生。我有两个数据集，分别是人类发展指数和预期寿命指数，我想知道预期寿

前端之家
2022-08-11 • 问答
数据挖掘中的时间序列数据和序列数据有什么区别？

有人可以举例说明时间序列和序列数据之间的区别吗？

前端之家
2022-08-11 • 问答
带有二进制分类器的多类分类Java开发

我正在尝试解决此数据挖掘练习，而不是WEKA。这是第一个问题，您能帮我解决吗？ 1）编写Java程序需要

前端之家
2022-08-11 • 问答
如何训练一对多格式的文本数据或排列数据？

[<img src="https://i.stack.imgur.com/71XFZ.jpg" alt="fefe"/>] 我想知道如何以给定的格式排列文本数据，以便开发深

前端之家
2022-08-11 • 问答
先验索引错误

这是代码 <pre><code>import numpy as np import matplotlib.pyplot as plt import pandas as pd from apyori import apriori store_da

前端之家
2022-08-10 • 问答
如何使用排列特征重要性获取值

我有一个5K（和60个特征）记录的数据集，主要用于二进制分类。请注意，此<a href="https://stackoverfl

前端之家
2022-08-07 • 问答
轮廓图和PCA图具有相同的颜色

我的目标是在PCA减少图旁边绘制轮廓图。我的想法是，为了理解，我想在两个图表上使用相同的颜色。

前端之家
2022-08-05 • 问答
检查一个大文件.csv并替换，并将其分类为一列

我需要检查一个大文件.csv并替换，然后将其分类为<code>dataframe['value']</code>列。这是我的代

前端之家
2022-08-04 • 问答
从数据库创建搜索保留域的脚本

<a href="https://i.stack.imgur.com/T6kL4.jpg" rel="nofollow noreferrer">https://i.stack.imgur.com/T6kL4.jpg</a> 我需要来自

前端之家
2022-08-04 • 问答
我的代码中的波斯字体损坏，尽管以前可以正常工作

我处理了一个包含波斯语和英语数据的数据框。我没有任何问题，我编码正确，并且运行良好。这次我

前端之家
2022-08-04 • 问答
总结质心簇的结果

我正在使用<code>WEKA</code>对虹膜数据集进行<strong>集群分析</strong>。我想知道如何使用质心给定的值总结

前端之家
2022-08-03 • 问答
什么是组异常和概念异常？

我有一个项目，可以在数据集中找到组异常和概念异常。但是我不知道这些含义。我在互联网上搜索，

前端之家
2022-08-03 • 问答
在r中拟合非线性模型

我才刚刚开始数据挖掘，所以我想预测温度。这是我的数据： <a href="https://data.gov.in/sites/default/files/dataf

前端之家
2022-08-03 • 问答
利用时间戳数据计算用户相似度的方法

我正在研究基于相似度的方法，以根据他们在应用程序上的活动来查找最相似和不相似的用户。

前端之家
2022-08-03 • 问答
使用波斯语在R中进行文本挖掘

我正在寻找一些v。简单数据挖掘（频率，二字组，三字母组）的方法，这些数据是我在波斯语中收集并

前端之家
2022-08-01 • 问答
为什么KS曲线以（0,0）开头？

<em> KS </em>曲线的垂直轴为<code>tpr,fpr</code>和（<code>tpr-fpr</code>），水平轴为阈值。 <code>tpr=(tp/tp+fn

前端之家
2022-08-01 • 问答

首页

下一页
末页