-
使用 PySpark/Python
我想一次从 HDFS 分区中依次读取一条记录。我找到了一个处理此逻辑的示例 Java 片段。有没有办法使用 P -
使用 accumulo 进行大量摄取
使用 accumulo 1.7.4 和 cloudera HDFS 在 AWS 上进行海量数据摄取(多 TB 数据摄取)。 我没有看到大量的 -
如何合并 HDFS 中的文件行
如何逐行合并两个 HDFS 文件(使用自定义分隔符) 在Linux文件系统中,我可以使用<code>paste</code>, -
当kafka HdfsSinkConnector完成时是否可以触发/调用另一个程序
我想在 kafka HdfsSinkConnector 任务完成时触发 impala 刷新作业。是否可以在任务完成时收到通知或以任何其 -
在 hdfs
我有一个使用 spark-submit 命令运行的 spark 作业。 我使用的 jar 托管在 hdfs 上,我使用其 hdfs 文件路径直 -
Zeppelin 0.9 在 YARN 客户端模式下运行 Spark 笔记本,而不是 YARN 集群
我刚刚设置了 Zeppelin(版本 0.9)以与 Hadoop (3.3.0) + Spark (3.1.2) 一起运行。我正在尝试运行 Zeppelin 网站中 -
pyspark.sql.utils.IllegalArgumentException
pyspark.sql.utils.IllegalArgumentException:来自 F:/spark/sample_files/column_ contains_JSON_data.csv 的路径名 /F:/spark/sample_fi -
连接到hdfs时是否可以在trino中设置最大重试次数?
我们使用 <a href="https://trino.io/" rel="nofollow noreferrer">trino</a> 连接到 hdfs。有没有办法设置查询的最大重试 -
使用 apache_nifi 删除从数据库移动到 hdfs 的重复文件
我在使用 apache nifi 时遇到问题,我想将数据从数据库移动到 hdfs。当我移动它时,我有一个表年份和一 -
Kafka HDFS Sink Connector Protobuf 没有被写入
我正在尝试使用 Kafka HDFS 3 接收器连接器将 protobuf 二进制文件写入 HDFS。但是,连接器一直在写入 avro 文 -
无法使用公共 IP 连接到 Azure Data Studio 上的 HDFS 服务
我在 Linux 服务器 (Centos 7) 上的 Kubernetes 上安装了 SQL Server 2019 大数据集群。 当我使用带有私有IP的ADS连 -
所有新写入块的副本都放置在机架感知 HDFS 集群上默认机架中新添加的节点中
我最近向具有复制因子 2 (3.0.0) 的机架感知 HDFS 集群添加了几个新数据节点。 所有其他预先存在的 -
如何知道Hadoop中已删除文件的列表?
我有一个需求,我需要找到在特定时间戳后从目录或其子目录中删除的文件列表。有没有办法在hadoop中 -
从多个 hdf 文件中提取变量
我有这 3 个文件 <a href="https://drive.google.com/drive/folders/1KvVG98tIUfH2pZfusy0d-jQ1iBqkCxOF?usp=sharing" rel="nofollow norefe -
PyArrow:如何使用新的文件系统接口将文件从本地复制到远程?
有人可以提示我如何使用 <a href="https://arrow.apache.org/docs/python/filesystems.html" rel="nofollow noreferrer">PyArrow's -
在 CDH 6 上从 Kafka 流式传输到 HDFS/Hive
我们在 CDH 6 Hadoop 集群上研究将数据从 Kafka 流式传输到 HDFS(首选:Parquet)文件和 Hive 表的选项。 -
来自带有标签的嵌套目录的 Spark Dataframe
我正在尝试从像这样的嵌套目录结构中的 HDFS 读取 8gb 的图像: <pre><code> train_set |___dir_0 | |___0 -
将文件从 hdfs 移动到 smb
请告诉我如何将文件从 hdfs 移动到 smb?我试过 SmbFile。复制,但我遇到了不知道文件名的问题。我也试 -
从 hdfs
我正在尝试使用 keras API <code>tf.keras.preprocessing.image_dataset_from_directory</code> 从 HDFS 上的嵌套目录创建带有 -
kafka连接hdfs sink连接器如何保证exactly-once交付?
<a href="https://docs.confluent.io/kafka-connect-hdfs3-sink/current/overview.html#exactly-once-delivery" rel="nofollow noreferrer">https: -
从一个 Hadoop 集群读取并写入另一个 Hadoop 集群
我正在运行一个 spark 作业,我需要从一个 HDFS 表中读取数据,该表位于 HadoopCluster-1 中。 现在我想将聚 -
使用apache nifi时删除hdfs中的重复文件
我想使用puthdfs处理器在hdfs中使用databasequerytable处理器从datawarehouse导入表,但是当我检查hdfs中的目录时 -
运行 MPIEXEC 时在 msg_queue_server 的构造函数中遇到错误
当我使用 mpiexec 执行命令时;我遇到了一个始终如一的错误,我找不到任何文档: <pre><code>mpiexec -H SL