-
创建Hive表时出现的问题
我正在尝试创建一个配置单元表并将SO中的一些帖子加载到该表中。当我查看该值时,我看到很多链接/ -
Hadoop mapreduce作业会创建太大的中间文件
我编写了一个mapreduce程序,但是当我尝试在hadoop上运行时,它无法成功,因为它会生成大量中间数据, -
如何减少MapReduce任务中不必要的线程
我正在编写一个非常简单的mapreduce作业来测试运行了多少线程并发,代码如下: <pre><code> System.out. -
找到hadoop输出,以便我可以阅读
我正在尝试重新格式化hadoop输出以生成一个csv文件。 当前,我正在使用<code>FileOutputFormat#setOutputPat -
Scala-根据另一个DF中的事务过滤DF中每个ID的数据
问题概述: <ol> <li>数据集1:用户将具有与某个交易ID相关联的多行</li> <li>数据集2:每个用户都将有 -
如果不使用MapReduce中的setup()和closeup()方法怎么办?
说我有一个如下所示的映射器,Mapper类获得每个映射器的本地前10名 <pre><code>public class TopTenMapper exten -
从Beeline连接时,Hive查询在Tez上失败,但在Map-Reduce上成功
我遇到一个奇怪的错误。我正在运行带有where子句的简单select *查询,以下是查询执行状态的摘要 <ol> -
为什么我的datanode在hadoop-2.8.0中不工作?
我该怎么做才能使datanode运行? <pre><code>C:\hadoop-2.8.0\sbin>jps 11328 ResourceManager 14312 Jps 17352 NodeManager 6 -
我无法在Hadoop集群中执行mapreduce作业
<pre><code>$ hadoop jar /usr/lib/hadoop/hadoop-streaming-2.6.0-cdh5.13.0.jar -file mapper.py -mapper mapper.py -file reducer.py -reducer red -
获取错误的值类:类org.apache.hadoop.io.LongWritable不是类org.apache.hadoop.io.IntWritable
我正在学习MapReduce,我编写了一个程序,该程序计算成员和非成员完成的总预订时间。我通过了所需的 -
Hadoop(MapReduce)问题。请勿处理此错误
我正在将Linux用于大数据主题的大学项目。我使用要通过Hadoop分析的Intellij构建了一个jar。该项目包括3个 -
Dataproc Hadoop MapReduce-无法正常工作
我基本上是在尝试运行我的第一个Hadoop MapReduce例程,并且我必须使用Hadoop和MapReduce,因为我正在为一个 -
配置对象中的MapReduce Hadoop错误代码
我有一个映射器,并减少了一个名为yelp_checkin.csv的文件,其中包含所有企业的business_id,签入日期和总 -
将文件作为输入传递给程序,并使用python中的sh库存储其输出
我对应该如何正确使用python <code>sh</code>库(特别是<code>sh.Command()</code>)感到困惑。基本上,我希望将<co -
在Python中执行MapReduce MRJob代码并获取IndexError:列表索引超出范围消息
好吧,我正在尝试mrjob库,而我编写的代码无法正常工作。我看了一下,从我对MapReduce库了解的一点点看 -
在Dataproc的集群中查找Hadoop Streaming Jar
所以我想在Dataproc集群上运行Python map reduce作业,问题是我找不到需要提交到Main类或jar输入中的Hadoop流jar -
从Hadoop的MultipleInputs和MultipleOutputs生成单个文件
当我在<code>MultipleInputs</code>中使用2个文件,在<code>MultipleOutputs</code>中使用2个文件时,我得到2个文件作 -
Map Reduce输出错误/ Reducer不起作用
我正在尝试收集特定站点的最高和最低温度,然后查找每一天的温度总和,但是我在映射器中始终遇到 -
使用MapReducer MRJob和我的映射器函数给我一个indexerror:列表索引超出范围
我是MapReduce MRJob的新手(老实说也是Python的新手)。我试图使用MRJob来计算文本文件中从“ A”到“ E” -
在功能界面中从Java 8 Map中断或返回减少
我有一个Java 8功能接口,该接口接受应用于对象的验证器列表,并返回验证结果。验证结果在缩减阶段 -
MongoDB 3.6-mapReduce中的传播算子
我在<code>node</code>项目中使用了许多<code>mapReduce</code>驱动程序的<code>mongoDb</code>。 由于<code>eslint</c -
如何对ResultSet应用MapReduce?
我正在使用Hive通过JDBC选择百万条记录 现在我想使用ResultSet来写我的OWL文件 如何使用MapReduce应用这种情 -
Map Reduce错误的输出/如何在减速器中减法。 java.lang.ArrayIndexOutOfBoundsException:1
我正在尝试从给定键(从映射器)中找到两个值之间的范围/差异。 我想做TMAX减去TMIN(TMAX-TMIN) -
如何使用JavaRDD(Spark)中的3个变量
基本上我有一个csv文件,其中包含具有国家,年份,代码,商品等字段的商业交易,如下所示: <bloc -
执行选择计数时可能通过配置单元从hbase导入的问题
当我从hbase_table执行此选择计数时,我就有了 <a href="https://i.stack.imgur.com/ZWOob.png" rel="nofollow noreferr -
MarkLogic Optic javaScript地理空间差异
我想使用MarkLogic Optic按距离某点的距离减小所选项目。 我有一个包含数据和一个经纬度的表 <p -
在Hadoop本地和伪分布式中的不同结果
我有一个MapReduce作业,其中Mapper从CSV中获取一个整数,并过滤日期字段。然后,Reduce将这个值求和。 -
访问Hadoop Job History Server / jobhistory页面时出错
我正在尝试访问Hadoop JobHistoryServer <em> / jobhistory </em>网页,并收到以下错误。但是,我可以正确访问同一 -
如何在Scala中使用map将字符串转换为ascii值列表?
我正在大学里学习函数编程的课程,并且试图解决作业中的问题。我已经在Scala中实现了<code>LinkedList</cod -
Hadoop MapReduce历史记录服务器REST API,作业
我正在使用以上API来检索mapreduce作业信息。返回的json中的name元素值似乎被截断了。映射归约作业名称是