-
Hadoop mapreduce作业会创建太大的中间文件
我编写了一个mapreduce程序,但是当我尝试在hadoop上运行时,它无法成功,因为它会生成大量中间数据, -
使用Scala从HBase读取数据时出错
我只是火花的初学者。 我试图连接到名为mimic3的Hbase myDB表,该列族称为sepsiscategories,并且有很多列。 -
如何计算执行器内存,执行器数量,执行器核心数量和驱动程序内存,以使用Spark读取40GB的文件?
<strong>纱线群集配置:</strong> 8个节点 每个节点8个核心 每个节点8 GB RAM 每个节点1TB硬盘 -
无法启动HIVE
配置单元版本-3.1.2 Hadoop版本-2.7.1 Java版本-openjdk 11.0.5-ea 2019-10-15 注意:我已经在HDF -
找到hadoop输出,以便我可以阅读
我正在尝试重新格式化hadoop输出以生成一个csv文件。 当前,我正在使用<code>FileOutputFormat#setOutputPat -
块大小和RPC / IPC长度之间有什么关系?
NameNode登录我的HDFS实例,最近开始以<code>Requested data length 145530837 is longer than maximum configured RPC length 14421 -
Nutch / Hadoop:regex-normalize.xml和regex-urlfilter.txt找不到错误,即使它们存在
我正在尝试通过Eclipse运行坚果和Hadoop,并按照一些教程进行设置。我目前停留在nullpointerexception上,我 -
在Spark中处理大量小数据批处理,并将它们写入HDFS
我目前有一个Hadoop集群设置,可通过Java / Springboot后端访问。后端使用Apache Spark从集群读取数据并进行分 -
蜂巢:当列值由定界符(〜)分隔时,将单个记录扩展为多个记录
我有以下信息 <pre><code>id user date test 102 123~456~897 01JAN2019~6JUL2018 -
可以在近RDBMS场景中使用哪些hadoop框架
我们正处于一个项目的分析阶段,在该项目中,我们将替换基于hdfs和用于报告和查看的配置单元的旧存 -
在hdfs文件搜索中找到-mtime等效项
我需要将HDFS文件从一个文件夹移动到另一个文件夹。但是我只想移动那些在30天之前创建的文件。例如</ -
在Hive中创建表,但不确定输入应使用哪种数据类型
我是HIVE的新手,正在尝试在蜂巢中创建表。但不确定在下面的输入中应使用哪种数据类型。 <a hre -
如果不使用MapReduce中的setup()和closeup()方法怎么办?
说我有一个如下所示的映射器,Mapper类获得每个映射器的本地前10名 <pre><code>public class TopTenMapper exten -
从Beeline连接时,Hive查询在Tez上失败,但在Map-Reduce上成功
我遇到一个奇怪的错误。我正在运行带有where子句的简单select *查询,以下是查询执行状态的摘要 <ol> -
发生集群故障时,蛇咬是否可以重试?
最近,snakebite替代了hdfs cli。据我了解,如果由于集群问题导致命令失败,hdfs不会重试命令。 我的问题 -
在Cloudera中的hadoop字数示例中获取数字
下面我们使用了以下代码: 映射类是WCMapper。 reduce类是WCReducer。 不太清楚为什么输出会生成数字 -
在HDInsight 4.0中创建群集期间更改Hive托管表的默认路径
我有一个HDInsight(Hadoop)4.0集群。 Hive托管表的默认路径是hive / househouse / managed,它位于群集的默认存储 -
java.lang.IllegalArgumentException:不包含有效的host:port权限:gvs2:asdf12#@192.168.134.222:22
我正在基于<a href="https://stackoverflow.com/questions/58688246/cdap-source-plugin-to-read-data-from-sftp-server">this</a>创建一 -
HDFS-无法解析/.reserved/.inodes
无法使用cli客户端解析<code>/.reserved/.inodes</code>目录。 此错误会影响使用Hive Warehouse连接器的一个Sp -
评估Hadoop性能所需的数据大小
我正在使用Docker容器在一台机器上运行具有3个数据节点的Hadoop。我已经在具有200个数据点的小型模拟数 -
为什么我的datanode在hadoop-2.8.0中不工作?
我该怎么做才能使datanode运行? <pre><code>C:\hadoop-2.8.0\sbin>jps 11328 ResourceManager 14312 Jps 17352 NodeManager 6 -
如何将配置单元查询输出重定向到标题和列名称具有空格的文本文件
我的蜂巢产品能获得评分。 <pre><code>Id, productid, rating, ProdBarCode 42 96 5 881107 -
连续WARN hdfs.DFSClient:通过TensorFlow Dataset API读取HDFS中存储的TFRecords时为零
当我使用TensorFlow数据集API读取HDFS中存储的TFRecords文件时,以下警告信息将连续出现在终端中。 <pre>< -
在Hive中插入覆盖表时,从org.apache.hadoop.hive.ql.exec.StatsTask错误返回代码1
我在Hive表上执行插入覆盖(合并文件本身时)时出现以下错误。 <strong>错误</strong>:<code>return co -
授予Hue中的组和角色的访问权限无效
当我将Grant授予色相中的组和角色时,组没有任何反应,并且没有访问权限! <pre><code>CREATE ROLE admin_r -
如何使用Scala读取列族的所有数据
我是Scala和hbase的初学者。我的目标是从hbase读取特定列族中的所有数据,以便为机器学习的未来用途做 -
如何从命令行界面检查Apache Phoenix的版本?
如何从命令行查看Apache Phoenix的版本? 我尝试使用Google搜索此信息,但没有发现任何有用的信息 -
Apache Phoenix-sqlline.py与sqlline-think.py-有什么区别?
Apache Phoenix-<code>sqlline.py</code>与<code>sqlline-think.py</code>。 这两个都是可执行脚本,可带您进入类 -
org.apache.hadoop.security.AccessControlException:/ user / rstudio(不是目录)
在R <code>> f = hdfs.file('./foo.data', 'r')</code>中尝试命令时收到此错误。 运行<code># hdfs df -
在Docker Swarm上部署Spark和HDFS无法启用数据本地性
我正在尝试使用Docker Swarm作为堆栈部署在小型集群上设置Spark + HDFS部署。我可以正常使用它,但是遇到