data-ingestion

有没有办法在Sqoop中设置PostgreSQL Optimizer？

我试图运行一个sqoop作业以将数据从Postgresql提取到hdfs，但是我陷入了困境。 Sqoop在我的“ <strong>

前端之家
2022-08-16 • 问答
kafka主题中是否有任何API或工具来获取摄入率

如何找到摄入率？也就是说，每秒钟/分钟的时间间隔内不会提取事件/字节数

前端之家
2022-08-15 • 问答
Sqoop无法从Postgres导入到S3

在日常操作中，我将数据从Postgresql导入到hdfs，将hdfs导入到S3。（sqoop导入[从postgres到hdfs]和distcp [从hdfs

前端之家
2022-08-15 • 问答
在提取管道中使用搜索模板

ElasticSearch接收管道可以使用搜索模板作为其脚本吗？具体地说，我想配置一个接收管道，以便每

前端之家
2022-08-13 • 问答
Google数据融合执行错误“ INVALID_ARGUMENT：'DISKS_TOTAL_GB'配额不足。请求3000.0，可用2048.0。”

我正在尝试使用Google Data Fusion Free版本将简单CSV文件从GCS加载到BQ。管道因错误而失败。它显示为 <pre

前端之家
2022-08-13 • 问答
Apache Druid：更新数据源中的数据时出现问题

我当前正在使用druid-Incubating-0.16.0版本。如<a href="https://druid.apache.org/docs/latest/tutorials/tutorial-update-data.html

前端之家
2022-08-11 • 问答
如何从TXT文件中提取JSON？

问题不是因为TXT是 <pre class="lang-sql prettyprint-override"><code>SELECT to_jsonb(file_get_contents('/tmp/test.json'

前端之家
2022-08-11 • 问答
Nifi：检查CSV文件以获取行更新，然后提取

通常在我们的环境中，当有人要摄取新数据时，他们会生成一个新的CSV文件，Nifi将从SFTP中获取该文件。

前端之家
2022-08-08 • 问答
找不到类'org.apache.hadoop.hive.druid.DruidStorageHandler'

德鲁伊蜂巢处理程序的jar文件在那里。客户表已经与数据一起存在。配置单元库文件夹<code>import VirtualKey

前端之家
2022-08-07 • 问答
在Cloud Run中将共享的缓存对象存储在哪里？

我正在使用Cloud Run创建数据提取管道。每当通过Pub Sub将文件放入GCS存储桶中时，都会调用My Cloud Run api。

前端之家
2022-08-05 • 问答
从S3到Snowflake和性能

我在S3中存储了大量作为小型JSON文件的事件。现在，我需要使用Snowpipes将这些文件摄取到Snowflake中。发

前端之家
2022-08-01 • 问答
具有外键约束的关系数据库如何摄取可能顺序错误的数据？

数据库正在从流中提取数据，并且满足外键约束所需的所有行都可能迟到或永远不会到达。这很

前端之家
2022-07-30 • 问答
最佳工具/技术，可以将数百万个IOT设备中的数据提取到kafka主题

请问有人建议从IOT设备（传感器/移动设备等）接收数百万条消息到服务器中的kafka主题的最佳方法吗？

前端之家
2022-07-29 • 问答
当报价中也出现引用时，如何在配置单元中添加带有引用的数据？

我有一个CSV文件，其中所有数据都用单引号引起来。我想将其摄取到配置单元表中。我可以将SERDE（'org.a

前端之家
2022-07-26 • 问答
Web应用的Kinesis生产商

我在研究Kinesis数据流，想知道Web应用程序或移动应用程序如何将事件发送到Kinesis数据流。一种方法是建

前端之家
2022-07-25 • 问答
Azure流分析：如何从客户端系统实时将图像摄取到Azure集线器？

我想将图像从系统连续发送到Azure云，并使用Azure流分析处理云上的图像。以下是我的要求： <

前端之家
2022-07-17 • 问答
Azure搜索索引存储大小停止为8MB

我正在尝试将13k json文档加载到azure搜索引擎中，但是索引在6k文档左右停止，而索引器没有任何错误，

前端之家
2022-07-15 • 问答
将来自多个数据库的数据吸收到单个solr集合中

为了从单个数据库中提取数据，我通常实现一个通过DataImportHandler加载数据的过程。它非常容易设置，在

前端之家
2022-07-14 • 问答
使用pandas_gbq提取big_query表来创建作业或管道以运行脚本的最佳选择是什么？

我不是数据工程师，并且对遵循的最佳方法有一些疑问。我的主要目标是从事一项工作，以填充（例如

前端之家
2022-07-12 • 问答
在德鲁伊中吸收科学记数法时间戳

我希望将数据导入科学的时间戳格式的Druid 17中。从<a href="https://druid.apache.org/docs/latest/ingestion/index.html#sp

前端之家
2022-07-07 • 问答
sqoop从db2导入到hdfs的问题

我正在尝试使用sqoop将数据从DB2导入到hdfs。由于我没有将db2jcc4.jar复制到/ var / lib / sqoop /目录的管理员权

前端之家
2022-07-06 • 问答
数据湖：修复提取与ETL上损坏的文件

<h2>客观</h2> 我正在构建datalake，总体流程类似于Nifi->存储-> ETL->存储->数据仓库。 Data Lake的一般

前端之家
2022-07-02 • 问答
Gobblin作业指标未将数据发布到InfluxDB

我已经配置了.pull文件，以生成度量并将度量发送到InfluxDb以便进行源，提取器和转换器作业。我尝试了

前端之家
2022-07-01 • 问答
如何从具有不同架构的多个资源中提取数据

我需要用不同的模式集中来自多个资源的日志例如 source1中的架构：时间戳记，错误代码，

前端之家
2022-07-01 • 问答
将实木复合地板文件摄取到着陆区

我们正在与Azure云一起使用，并且我们有一些管道将sap到azure数据湖第二代中的每日数据提取。我们正在

前端之家
2022-06-29 • 问答
如何使用Kafka在生产者端实现容错功能

我是Kafa和数据提取的新手。我知道Kafka是容错的，因为它可以将数据冗余地保留在多个节点上。但是，

前端之家
2022-06-29 • 问答
将CSV数据导入Hadoop

目前，我正在尝试将数据提取到hdfs。我尝试提取的数据类型为csv。在ubuntu上安装了Hadoop 3.1.1。数据样

前端之家
2022-06-25 • 问答
IngestFromStreamAsync方法不起作用

<h2>我设法使用以下代码成功提取数据</h2> var kcsbDM =新的KustoConnectionStringBuilder（“ <a href="https://test123.so

前端之家
2022-06-25 • 问答
使用ADF连接器“ SAP表”从SAP CDS（核心数据服务）视图中提取数据

我需要从S / 4 HANA CDS（核心数据服务）视图中读取数据，并使用Azure Data Factory复制到Azure。 ADF为SAP

前端之家
2022-06-19 • 问答
在使用JMeter进行数据摄取测试期间，我应该采取哪种功能/性能测试方法？

<h2>项目概述：</h2> 我们正在构建一个数据提取后端平台。后端系统的3个主要组件是：侦听器（将接收车

前端之家
2022-06-18 • 问答

首页

下一页
末页