hadoop

CDAP Source插件可从Sftp服务器读取数据

我想使用cdap源插件读取Sftp服务器可用的csv文件。我碰到了<a href="https://github.com/cdapio/hydrator-plugins

前端之家
2022-08-16 • 问答
如何获取HADOOP配置单元中同一文件夹中所有表的表计数？如果在SAS服务器中？

我想获取HADOOP配置单元数据库中名为“ planning”的文件夹下所有表的表计数，但是我不知道这样做的方

前端之家
2022-08-16 • 问答
在hdfs中datanode的使用率之一达到了100％？平衡器无法运作

我对Hadoop hdfs有一些问题。（Hadoop 2.7.3）我有2个名称节点（1个活动节点，1个备用节点）和3个数据节点

前端之家
2022-08-16 • 问答
创建Hive表时出现的问题

我正在尝试创建一个配置单元表并将SO中的一些帖子加载到该表中。当我查看该值时，我看到很多链接/

前端之家
2022-08-16 • 问答
Power BI-直接查询具有数百万条记录的hadoop

我是Power BI的新手。我被要求为大型数据集（在Hadoop中）生成Power BI报告，然后将其发布到Power BI服务上

前端之家
2022-08-16 • 问答
Hive-两个读者问题有解决方案吗？

在hive托管表中执行合并操作后，我们在HDP版本的Hive表（Hive 3.1.0.3.1.0.0-78）中面临以下问题。当我

前端之家
2022-08-16 • 问答
Druid hadoop批处理主管：无法将类型id'index.hadoop'解析为SupervisorSpec的子项

我正试图启动一个Druid主管来提取存储在hadoop中的PArqurt数据。但是，我收到以下错误，但找不到有关它

前端之家
2022-08-16 • 问答
应用转换后需要将数据从Hadoop加载到Druid。如果使用Spark，是否可以将数据从Spark RDD或数据帧直接加载到Druid？

我的蜂巢表中有数据。我想在将数据加载到德鲁伊之前应用一堆转换。所以有很多方法，但我不确定。

前端之家
2022-08-16 • 问答
应用逻辑后，正则表达式模式无法在pyspark中运行

我的数据如下： <pre><code>>>> df1.show() +-----------------+--------------------+ | corruptNames| standard

前端之家
2022-08-16 • 问答
如何在Haddop中查找用户正在运行的作业数？

我想知道在没有任何UI应用程序的情况下在Hadoop中运行的作业数量，实际上，我对表进行某种查询更感兴趣。

前端之家
2022-08-16 • 问答
Hodoop NameNode无法启动

当我使用start-all.cmd时，则datanode，resourcemanager，nodemanager正常工作，但namenode不工作！ <pre><code>19/11/04

前端之家
2022-08-16 • 问答
有没有一种方法可以给Hive中的表赋予“第二个名称”，以便用户可以引用该表的任何一个名称并检索相同的内容？

我希望能够引用具有特定命名模式的表以使我的代码统一，但是我正在从具有不同命名模式的不同环境

前端之家
2022-08-16 • 问答
Hadoop API使用pyspark下载文件

我正在尝试下载Hadoop文件（我的hadoop数据在Azure数据湖中）。在以下脚本中使用过，但是我遇到了JVM错误

前端之家
2022-08-16 • 问答
两个词的正则表达式不区分大小写

我如何编写正则表达式语句以查找不区分大小写的“加拿大航空”一词，并且两个词之间可能有空格字

前端之家
2022-08-16 • 问答
Pig-表达式不是项目表达式：（名称：ScalarExpression）类型：null Uid：null）

这是我的文件数据： <pre><code>86246,205,7,707,1078778070,12564,3/2/2012,12,OZ,1,7.59 86246,205,63,6319,107654575,17876,3/2/

前端之家
2022-08-16 • 问答
对HDFS的概念理解

我只是不明白为什么在hadoop文件系统中，hdfs中的文件只能一次写入，并且在任何时候都只能有一个写入

前端之家
2022-08-16 • 问答
使用Web API将文件上传到HDFS，但有时由于丢失“ HTTP 100 Continue”数据包而挂起

我使用<a href="https://hadoop.apache.org/docs/r1.0.4/webhdfs.html#CREATE" rel="nofollow noreferrer">WebHDFS REST API</a>将文件上

前端之家
2022-08-16 • 问答
是否有SQL命令删除HDFS上用于外部表的文件

我会问蜂巢中是否有sql命令删除该表并删除此外部表的hdfs文件。当我使用hdfs命令删除文件时，我

前端之家
2022-08-16 • 问答
找不到错误值spark import spark.implicits._ import spark.sql

我正在<hadoop集群上使用 hadoop 2.7.2，hbase 1.4.9，spark 2.2.0，scala 2.11.8和Java 1.8 一位主人，

前端之家
2022-08-16 • 问答
数据集中的拆分数量超过数据集拆分限制，Dremio + Hive + Spark

我们有一个由Hadoop + Hive + Spark + Dremio组成的堆栈，因为Spark为单个Hive分区写入多个HDFS文件（取决于工作

前端之家
2022-08-16 • 问答
Apache Hive无法正确返回YARN应用程序结果

我正在AWS EC2上运行从头开始的集群。我有一个用S3上的数据定义的外部表（已分区）。我可以查询此表

前端之家
2022-08-16 • 问答
创建具有Serde格式和额外列的外部表-HIVE

我正在尝试将txt文件导入到外部表中，并在蜂巢中添加一个额外的列，例如： <pre><code> CREATE EXTERNAL T

前端之家
2022-08-16 • 问答
如何在sqoop中限制映射器数据？

我正在尝试使用Sqoop导入将5M记录从SQL Server导入到Hive表中。 源表： 源表只是

前端之家
2022-08-16 • 问答
java.lang.IllegalArgumentException：错误的FS：hdfs：// nameservice1 / kylin_metadata / kylin -...，例外：hdfs：// node111a11：8020

当我开始使用kylin来调度多维数据集时，遇到以下错误：多维数据集的作业日志如下： <pre><code>java.l

前端之家
2022-08-16 • 问答
尝试从Spark查询HBase上的数据时出现NoSuchMethodError

我正在尝试使用SparkSQL / DataFrames查询加载到HBase表中的数据。我的集群基于Cloudera CDH 6.2.0（Spark版本2.4.0

前端之家
2022-08-16 • 问答
错误：500，我从笔记本电脑上以hdfs上传文件时，我不知道为什么出现此对话框？

<a href="https://i.stack.imgur.com/LLQvq.png" rel="nofollow noreferrer">Error500</a> <a href="https://i.stack.imgur.com/G6g3T.

前端之家
2022-08-16 • 问答
.dat文件到配置单元表中，数据用双引号引起来

我有一个文件.dat文件，如下所示，该文件要加载到hdfs位置，然后再加载到表中。这是由软件生成的

前端之家
2022-08-16 • 问答
使用Livy提交Spark作业时出错：用户未初始化Spark上下文

我是Spark的新手，我正在关注本文档，以通过Livy <a href="https://docs.microsoft.com/en-us/azure/hdinsight/spark/apache-sp

前端之家
2022-08-16 • 问答
将我的容器入门文件翻译为docker-compose.yml

我在大数据领域比较新，这是我第一次使用Docker。我刚刚发现了一个令人惊叹的项目：<a href="https://kiwenl

前端之家
2022-08-16 • 问答
Hadoop和重复使用的可变可写字段

这是从Apache教程发布的单词计数作业的实现的摘录 <pre><code>public static class TokenizerMapper extends Mapper&lt

前端之家
2022-08-16 • 问答

首页

下一页
末页