-
CDAP Source插件可从Sftp服务器读取数据
我想使用cdap源插件读取Sftp服务器可用的csv文件。 我碰到了<a href="https://github.com/cdapio/hydrator-plugins -
如何获取HADOOP配置单元中同一文件夹中所有表的表计数?如果在SAS服务器中?
我想获取HADOOP配置单元数据库中名为“ planning”的文件夹下所有表的表计数,但是我不知道这样做的方 -
在hdfs中datanode的使用率之一达到了100%?平衡器无法运作
我对Hadoop hdfs有一些问题。 (Hadoop 2.7.3) 我有2个名称节点(1个活动节点,1个备用节点)和3个数据节点 -
创建Hive表时出现的问题
我正在尝试创建一个配置单元表并将SO中的一些帖子加载到该表中。当我查看该值时,我看到很多链接/ -
Power BI-直接查询具有数百万条记录的hadoop
我是Power BI的新手。我被要求为大型数据集(在Hadoop中)生成Power BI报告,然后将其发布到Power BI服务上 -
Hive-两个读者问题有解决方案吗?
在hive托管表中执行合并操作后,我们在HDP版本的Hive表(Hive 3.1.0.3.1.0.0-78)中面临以下问题。 当我 -
Druid hadoop批处理主管:无法将类型id'index.hadoop'解析为SupervisorSpec的子项
我正试图启动一个Druid主管来提取存储在hadoop中的PArqurt数据。但是,我收到以下错误,但找不到有关它 -
应用转换后需要将数据从Hadoop加载到Druid。如果使用Spark,是否可以将数据从Spark RDD或数据帧直接加载到Druid?
我的蜂巢表中有数据。我想在将数据加载到德鲁伊之前应用一堆转换。所以有很多方法,但我不确定。 -
应用逻辑后,正则表达式模式无法在pyspark中运行
我的数据如下: <pre><code>>>> df1.show() +-----------------+--------------------+ | corruptNames| standard -
如何在Haddop中查找用户正在运行的作业数?
我想知道在没有任何UI应用程序的情况下在Hadoop中运行的作业数量,实际上,我对表进行某种查询更感兴趣。 -
Hodoop NameNode无法启动
当我使用start-all.cmd时,则datanode,resourcemanager,nodemanager正常工作,但namenode不工作! <pre><code>19/11/04 -
有没有一种方法可以给Hive中的表赋予“第二个名称”,以便用户可以引用该表的任何一个名称并检索相同的内容?
我希望能够引用具有特定命名模式的表以使我的代码统一,但是我正在从具有不同命名模式的不同环境 -
Hadoop API使用pyspark下载文件
我正在尝试下载Hadoop文件(我的hadoop数据在Azure数据湖中)。在以下脚本中使用过,但是我遇到了JVM错误 -
两个词的正则表达式不区分大小写
我如何编写正则表达式语句以查找不区分大小写的“加拿大航空”一词,并且两个词之间可能有空格字 -
Pig-表达式不是项目表达式:(名称:ScalarExpression)类型:null Uid:null)
这是我的文件数据: <pre><code>86246,205,7,707,1078778070,12564,3/2/2012,12,OZ,1,7.59 86246,205,63,6319,107654575,17876,3/2/ -
对HDFS的概念理解
我只是不明白为什么在hadoop文件系统中,hdfs中的文件只能一次写入,并且在任何时候都只能有一个写入 -
使用Web API将文件上传到HDFS,但有时由于丢失“ HTTP 100 Continue”数据包而挂起
我使用<a href="https://hadoop.apache.org/docs/r1.0.4/webhdfs.html#CREATE" rel="nofollow noreferrer">WebHDFS REST API</a>将文件上 -
是否有SQL命令删除HDFS上用于外部表的文件
我会问蜂巢中是否有sql命令删除该表并删除此外部表的hdfs文件。 当我使用hdfs命令删除文件时,我 -
找不到错误值spark import spark.implicits._ import spark.sql
我正在<hadoop集群</em>上使用<strong> hadoop 2.7.2,hbase 1.4.9,spark 2.2.0,scala 2.11.8和Java 1.8 </strong>一位主人, -
数据集中的拆分数量超过数据集拆分限制,Dremio + Hive + Spark
我们有一个由Hadoop + Hive + Spark + Dremio组成的堆栈,因为Spark为单个Hive分区写入多个HDFS文件(取决于工作 -
Apache Hive无法正确返回YARN应用程序结果
我正在AWS EC2上运行从头开始的集群。我有一个用S3上的数据定义的外部表(已分区)。我可以查询此表 -
创建具有Serde格式和额外列的外部表-HIVE
我正在尝试将txt文件导入到外部表中,并在蜂巢中添加一个额外的列,例如: <pre><code> CREATE EXTERNAL T -
如何在sqoop中限制映射器数据?
我正在尝试使用Sqoop导入将5M记录从SQL Server导入到Hive表中。 <strong>源表:</strong> 源表只是 -
java.lang.IllegalArgumentException:错误的FS:hdfs:// nameservice1 / kylin_metadata / kylin -...,例外:hdfs:// node111a11:8020
当我开始使用kylin来调度多维数据集时,遇到以下错误: 多维数据集的作业日志如下: <pre><code>java.l -
尝试从Spark查询HBase上的数据时出现NoSuchMethodError
我正在尝试使用SparkSQL / DataFrames查询加载到HBase表中的数据。我的集群基于Cloudera CDH 6.2.0(Spark版本2.4.0 -
错误:500,我从笔记本电脑上以hdfs上传文件时,我不知道为什么出现此对话框?
<a href="https://i.stack.imgur.com/LLQvq.png" rel="nofollow noreferrer">Error500</a> <a href="https://i.stack.imgur.com/G6g3T. -
.dat文件到配置单元表中,数据用双引号引起来
我有一个文件.dat文件,如下所示,该文件要加载到hdfs位置,然后再加载到表中。这是由软件生成的 -
使用Livy提交Spark作业时出错:用户未初始化Spark上下文
我是Spark的新手,我正在关注本文档,以通过Livy <a href="https://docs.microsoft.com/en-us/azure/hdinsight/spark/apache-sp -
将我的容器入门文件翻译为docker-compose.yml
我在大数据领域比较新,这是我第一次使用Docker。我刚刚发现了一个令人惊叹的项目:<a href="https://kiwenl -
Hadoop和重复使用的可变可写字段
这是从Apache教程发布的单词计数作业的实现的摘录 <pre><code>public static class TokenizerMapper extends Mapper<