data-ingestion

用于ArangoDB的Kafka连接器

我们可以使用Apache Kafka连接到ArangoDB吗？我可以看到对DirectMQ for ArangoDB的支持，但是如果我想使用Kafka从

前端之家
2022-06-16 • 问答
Weaviate自动分类过程的性能如何？

我想研究在流媒体摄取管道中使用Weaviate自动分类来丰富Splunk摄取数据的可能性。这仅在“自动分

前端之家
2022-06-11 • 问答
Kusto提取错误“ BadRequest_EmptyArchive：空zip存档”

我在Azure blob存储中有一堆.csv文件，并且有一个提取规则将它们拉入Kusto（Azure数据资源管理器）。这曾

前端之家
2022-06-04 • 问答
MongoDB聚合-读取文档的操作员汇总查询1：汇总查询2：

由于Mongo每个聚合管道（在第一个<code>$text</code>阶段）仅支持<em>一个</em> <code>$match</code>字段，这意味着

前端之家
2022-06-01 • 问答
在BigQuery上执行通配符提取时，是否可以跳过包含错误的文件？

BigQuery提供了在发生错误时继续加载数据的选项，方法是在加载作业期间指定错误限制。是否有类似的

前端之家
2022-05-30 • 问答
AWS |从SFTP提取数据

我打算编写一个数据管道，将数据从本地SFTP服务器拉到S3。我该如何实现？我只对AWS特定服务感兴趣。

前端之家
2022-05-30 • 问答
如何最好地在Grakn中批量插入查询？

批处理Grakn插入查询的最佳实践是什么？来自<a href="https://dev.grakn.ai/docs/client-api/overview" rel="nofollow

前端之家
2022-05-28 • 问答
刷新德鲁伊中的数据

我正在使用index_parallel本机批处理方法将数据从s3提取到Druid。我已经使用Druid UI中的“任务”选项卡进行

前端之家
2022-05-28 • 问答
暂时停止将卡夫卡摄入任务拖入德鲁伊集群

嗨，我是Apache Druid的新手。我们有一个德鲁伊集群，从kafka流中获取数据。我们有一个要求，即系统需要

前端之家
2022-05-27 • 问答
Azure数据资源管理器缓慢地接收/失败

我正在尝试将一些数据摄取到ADX中，但看不到任何数据出现： <ul> <li> 40个实木复合地板文件（从1Mb到

前端之家
2022-05-27 • 问答
当摄取的新数据与用户实体订阅匹配时，如何设置警报

我正在从事一个项目，并坚持研究堆栈的特定方面，因为我不确定我是否正确表达了搜索查询。希望堆

前端之家
2022-05-27 • 问答
将路径文件设置为参数在python pyspark中不起作用

我想运行一个代码，在其中可以使用jdbc驱动程序提取数据并将其保存到文件路径中。它成功摄取了数据

前端之家
2022-05-27 • 问答
HBase中的数据提取

我正在大数据平台上工作，需要对HBase进行数据提取。有两种情况： <ol> <li> 每个周末，我们

前端之家
2022-05-26 • 问答
将pandas数据帧读取到Postgresql数据库中的现有表中时发生FeedParserDict编程错误

当尝试将熊猫数据帧读取到新创建的postgresql表中时，出现“ FeedParserDict”错误消息。我对此很陌生，无

前端之家
2022-05-25 • 问答
AWS Timestream：无法将记录提取到AWS Timestream

众所周知，AWS Timestream在上周普遍可用。从那时起，我一直在尝试对其进行试验，并了解其如何对

前端之家
2022-05-23 • 问答
AWS Lake Formation-具有多列的书签

我已经阅读了有关AWS Lake Formation的文档以及用于增量数据加载的书签： <a href="https://docs.aws.amazon.com/lake-f

前端之家
2022-05-19 • 问答
PostgreSQL和TimescaleDB的高速单行插入

我有一个TSDB Hypertable的情况，看起来像这样： <pre><code>CREATE TABLE data ( pool_id INTEGER NOT NULL, ts TIMESTAM

前端之家
2022-05-03 • 问答
如果雪花的类型为日期时间，我们如何将 NULL 添加为接受空值的雪花字段的值

我正在尝试将某个阶段中的一些数据加载到具有以下 DDL 的表中： <pre><code>CREATE TABLE IF NOT EXISTS SAT_COUN

前端之家
2022-05-01 • 问答
KQL 更新策略的数据摄取问题；查询架构与表架构不匹配

我正在编写一个函数，它接收原始数据表（包含 multijson 遥测数据）并将其重新格式化为多个列。我使用

前端之家
2022-04-28 • 问答
我们如何在 ADF 中使用复制活动执行数据加载时从 Excel 文件中排除不必要的行

我有一个半结构化的 excel 文件。表中有数据，但某些行中有需要忽略的分隔符。数据的处理应该从列标

前端之家
2022-04-27 • 问答
无法修剪 pyspark 数据框中的空白空间

从 Oracle 加载数据并写入 PostgreSQL 时遇到奇怪的问题。无法将带空格的字符串写入 postgres。面临以下问题

前端之家
2022-04-25 • 问答
从客户端加载数据

我们从多个客户端获取数据。总的来说，这个数据是相似的。例如，一个客户端调用列 <code>finance_year_ove

前端之家
2022-04-25 • 问答
文件夹中多个json（嵌套）文件的Elasticsearch logstash配置

我有一个文件夹，其中包含以下格式的 json 文件。 <pre><code>{ "name" : "test", "Age" : 30,

前端之家
2022-04-24 • 问答
如何在apache druid的摄取规范中获取具有最大时间戳的最后一个值？

我在 <a href="https://druid.apache.org/docs/latest/querying/aggregations.html" rel="nofollow noreferrer">https://druid.apache.org/docs/

前端之家
2022-04-23 • 问答
在 BigQuery 中管理增量

我正在寻找有关如何管理 BigQuery 的增量加载的指南。这是我们的流程 <ul> <li>我们在 GCS 中接收 csv 文

前端之家
2022-04-23 • 问答
摄取处理器 foreach 或脚本以替换数组中的所有项目

我正在尝试运行一个摄取管道，以将数组中的“on”和“off”实例替换为 true 和 false。这与普通字

前端之家
2022-04-22 • 问答
以快速的速度将数据从 websocket 管道/摄取到 elasticsearch 中，以避免缓冲区过载

我正在从事的项目以极快的速度从单个 WebSocket 读取数据。我遇到的问题是 websocket 提供程序要求您尽快

前端之家
2022-04-21 • 问答
在 hdfs 上使用多种集成工具

我正在做一个小项目。该项目的目标是使用框架摄取工具将数据摄取到数据湖中。 -我将分批摄取

前端之家
2022-04-20 • 问答
如何读取存储在adls路径上的csv文件而无需在本地下载

查找文件的命令如下： hdfs dfs -ls {adls 文件位置路径} 读取列出文件的命令

前端之家
2022-04-20 • 问答
azure 数据工厂 v2 从具有不同文件名和结构的数据湖中摄取文件

我的任务是从数据湖存储中提取平面文件。它们是多个文件，将存储在同一个逻辑文件夹中。这

前端之家
2022-04-20 • 问答