hdfs - 前端之家

使用 PySpark/Python

我想一次从 HDFS 分区中依次读取一条记录。我找到了一个处理此逻辑的示例 Java 片段。有没有办法使用 P

前端之家
2022-04-16 • 问答
使用 accumulo 进行大量摄取

使用 accumulo 1.7.4 和 cloudera HDFS 在 AWS 上进行海量数据摄取（多 TB 数据摄取）。我没有看到大量的

前端之家
2022-04-16 • 问答
如何合并 HDFS 中的文件行

如何逐行合并两个 HDFS 文件（使用自定义分隔符）在Linux文件系统中，我可以使用<code>paste</code>，

前端之家
2022-04-16 • 问答
当kafka HdfsSinkConnector完成时是否可以触发/调用另一个程序

我想在 kafka HdfsSinkConnector 任务完成时触发 impala 刷新作业。是否可以在任务完成时收到通知或以任何其

前端之家
2022-04-16 • 问答
在 hdfs

我有一个使用 spark-submit 命令运行的 spark 作业。我使用的 jar 托管在 hdfs 上，我使用其 hdfs 文件路径直

前端之家
2022-04-16 • 问答
Zeppelin 0.9 在 YARN 客户端模式下运行 Spark 笔记本，而不是 YARN 集群

我刚刚设置了 Zeppelin（版本 0.9）以与 Hadoop (3.3.0) + Spark (3.1.2) 一起运行。我正在尝试运行 Zeppelin 网站中

前端之家
2022-04-16 • 问答
pyspark.sql.utils.IllegalArgumentException

pyspark.sql.utils.IllegalArgumentException：来自 F:/spark/sample_files/column_ contains_JSON_data.csv 的路径名 /F:/spark/sample_fi

前端之家
2022-04-16 • 问答
连接到hdfs时是否可以在trino中设置最大重试次数？

我们使用 <a href="https://trino.io/" rel="nofollow noreferrer">trino</a> 连接到 hdfs。有没有办法设置查询的最大重试

前端之家
2022-04-16 • 问答
使用 apache_nifi 删除从数据库移动到 hdfs 的重复文件

我在使用 apache nifi 时遇到问题，我想将数据从数据库移动到 hdfs。当我移动它时，我有一个表年份和一

前端之家
2022-04-16 • 问答
Kafka HDFS Sink Connector Protobuf 没有被写入

我正在尝试使用 Kafka HDFS 3 接收器连接器将 protobuf 二进制文件写入 HDFS。但是，连接器一直在写入 avro 文

前端之家
2022-04-16 • 问答
无法使用公共 IP 连接到 Azure Data Studio 上的 HDFS 服务

我在 Linux 服务器 (Centos 7) 上的 Kubernetes 上安装了 SQL Server 2019 大数据集群。当我使用带有私有IP的ADS连

前端之家
2022-04-16 • 问答
所有新写入块的副本都放置在机架感知 HDFS 集群上默认机架中新添加的节点中

我最近向具有复制因子 2 (3.0.0) 的机架感知 HDFS 集群添加了几个新数据节点。所有其他预先存在的

前端之家
2022-04-15 • 问答
如何知道Hadoop中已删除文件的列表？

我有一个需求，我需要找到在特定时间戳后从目录或其子目录中删除的文件列表。有没有办法在hadoop中

前端之家
2022-04-15 • 问答
从多个 hdf 文件中提取变量

我有这 3 个文件 <a href="https://drive.google.com/drive/folders/1KvVG98tIUfH2pZfusy0d-jQ1iBqkCxOF?usp=sharing" rel="nofollow norefe

前端之家
2022-04-15 • 问答
PyArrow：如何使用新的文件系统接口将文件从本地复制到远程？

有人可以提示我如何使用 <a href="https://arrow.apache.org/docs/python/filesystems.html" rel="nofollow noreferrer">PyArrow's

前端之家
2022-04-15 • 问答
在 CDH 6 上从 Kafka 流式传输到 HDFS/Hive

我们在 CDH 6 Hadoop 集群上研究将数据从 Kafka 流式传输到 HDFS（首选：Parquet）文件和 Hive 表的选项。

前端之家
2022-04-15 • 问答
来自带有标签的嵌套目录的 Spark Dataframe

我正在尝试从像这样的嵌套目录结构中的 HDFS 读取 8gb 的图像： <pre><code> train_set |___dir_0 | |___0

前端之家
2022-04-15 • 问答
将文件从 hdfs 移动到 smb

请告诉我如何将文件从 hdfs 移动到 smb？我试过 SmbFile。复制，但我遇到了不知道文件名的问题。我也试

前端之家
2022-04-15 • 问答
从 hdfs

我正在尝试使用 keras API <code>tf.keras.preprocessing.image_dataset_from_directory</code> 从 HDFS 上的嵌套目录创建带有

前端之家
2022-04-15 • 问答
kafka连接hdfs sink连接器如何保证exactly-once交付？

<a href="https://docs.confluent.io/kafka-connect-hdfs3-sink/current/overview.html#exactly-once-delivery" rel="nofollow noreferrer">https:

前端之家
2022-04-15 • 问答
从一个 Hadoop 集群读取并写入另一个 Hadoop 集群

我正在运行一个 spark 作业，我需要从一个 HDFS 表中读取数据，该表位于 HadoopCluster-1 中。现在我想将聚

前端之家
2022-04-15 • 问答
使用apache nifi时删除hdfs中的重复文件

我想使用puthdfs处理器在hdfs中使用databasequerytable处理器从datawarehouse导入表，但是当我检查hdfs中的目录时

前端之家
2022-04-15 • 问答
运行 MPIEXEC 时在 msg_queue_server 的构造函数中遇到错误

当我使用 mpiexec 执行命令时；我遇到了一个始终如一的错误，我找不到任何文档： <pre><code>mpiexec -H SL

前端之家
2022-04-15 • 问答

首页
上一页

末页