-
用于ArangoDB的Kafka连接器
我们可以使用Apache Kafka连接到ArangoDB吗?我可以看到对DirectMQ for ArangoDB的支持,但是如果我想使用Kafka从 -
Weaviate自动分类过程的性能如何?
我想研究在流媒体摄取管道中使用Weaviate自动分类来丰富Splunk摄取数据的可能性。 这仅在“自动分 -
Kusto提取错误“ BadRequest_EmptyArchive:空zip存档”
我在Azure blob存储中有一堆.csv文件,并且有一个提取规则将它们拉入Kusto(Azure数据资源管理器)。这曾 -
MongoDB聚合-读取文档的操作员 汇总查询1:汇总查询2:
由于Mongo每个聚合管道(在第一个<code>$text</code>阶段)仅支持<em>一个</em> <code>$match</code>字段,这意味着 -
在BigQuery上执行通配符提取时,是否可以跳过包含错误的文件?
BigQuery提供了在发生错误时继续加载数据的选项,方法是在加载作业期间指定错误限制。是否有类似的 -
AWS |从SFTP提取数据
我打算编写一个数据管道,将数据从本地SFTP服务器拉到S3。我该如何实现?我只对AWS特定服务感兴趣。 -
如何最好地在Grakn中批量插入查询?
批处理Grakn插入查询的最佳实践是什么? 来自<a href="https://dev.grakn.ai/docs/client-api/overview" rel="nofollow -
刷新德鲁伊中的数据
我正在使用index_parallel本机批处理方法将数据从s3提取到Druid。我已经使用Druid UI中的“任务”选项卡进行 -
暂时停止将卡夫卡摄入任务拖入德鲁伊集群
嗨,我是Apache Druid的新手。我们有一个德鲁伊集群,从kafka流中获取数据。我们有一个要求,即系统需要 -
Azure数据资源管理器缓慢地接收/失败
我正在尝试将一些数据摄取到ADX中,但看不到任何数据出现: <ul> <li> 40个实木复合地板文件(从1Mb到 -
当摄取的新数据与用户实体订阅匹配时,如何设置警报
我正在从事一个项目,并坚持研究堆栈的特定方面,因为我不确定我是否正确表达了搜索查询。希望堆 -
将路径文件设置为参数在python pyspark中不起作用
我想运行一个代码,在其中可以使用jdbc驱动程序提取数据并将其保存到文件路径中。它成功摄取了数据 -
HBase中的数据提取
我正在大数据平台上工作,需要对HBase进行数据提取。 有两种情况: <ol> <li> 每个周末,我们 -
将pandas数据帧读取到Postgresql数据库中的现有表中时发生FeedParserDict编程错误
当尝试将熊猫数据帧读取到新创建的postgresql表中时,出现“ FeedParserDict”错误消息。我对此很陌生,无 -
AWS Timestream:无法将记录提取到AWS Timestream
众所周知,AWS Timestream在上周普遍可用。 从那时起,我一直在尝试对其进行试验,并了解其如何对 -
AWS Lake Formation-具有多列的书签
我已经阅读了有关AWS Lake Formation的文档以及用于增量数据加载的书签: <a href="https://docs.aws.amazon.com/lake-f -
PostgreSQL和TimescaleDB的高速单行插入
我有一个TSDB Hypertable的情况,看起来像这样: <pre><code>CREATE TABLE data ( pool_id INTEGER NOT NULL, ts TIMESTAM -
如果雪花的类型为日期时间,我们如何将 NULL 添加为接受空值的雪花字段的值
我正在尝试将某个阶段中的一些数据加载到具有以下 DDL 的表中: <pre><code>CREATE TABLE IF NOT EXISTS SAT_COUN -
KQL 更新策略的数据摄取问题;查询架构与表架构不匹配
我正在编写一个函数,它接收原始数据表(包含 multijson 遥测数据)并将其重新格式化为多个列。我使用 -
我们如何在 ADF 中使用复制活动执行数据加载时从 Excel 文件中排除不必要的行
我有一个半结构化的 excel 文件。表中有数据,但某些行中有需要忽略的分隔符。 数据的处理应该从列标 -
无法修剪 pyspark 数据框中的空白空间
从 Oracle 加载数据并写入 PostgreSQL 时遇到奇怪的问题。无法将带空格的字符串写入 postgres。面临以下问题 -
从客户端加载数据
我们从多个客户端获取数据。总的来说,这个数据是相似的。例如,一个客户端调用列 <code>finance_year_ove -
文件夹中多个json(嵌套)文件的Elasticsearch logstash配置
我有一个文件夹,其中包含以下格式的 json 文件。 <pre><code>{ "name" : "test", "Age" : 30, -
如何在apache druid的摄取规范中获取具有最大时间戳的最后一个值?
我在 <a href="https://druid.apache.org/docs/latest/querying/aggregations.html" rel="nofollow noreferrer">https://druid.apache.org/docs/ -
在 BigQuery 中管理增量
我正在寻找有关如何管理 BigQuery 的增量加载的指南。这是我们的流程 <ul> <li>我们在 GCS 中接收 csv 文 -
摄取处理器 foreach 或脚本以替换数组中的所有项目
我正在尝试运行一个摄取管道,以将数组中的“on”和“off”实例替换为 true 和 false。 这与普通字 -
以快速的速度将数据从 websocket 管道/摄取到 elasticsearch 中,以避免缓冲区过载
我正在从事的项目以极快的速度从单个 WebSocket 读取数据。我遇到的问题是 websocket 提供程序要求您尽快 -
在 hdfs 上使用多种集成工具
我正在做一个小项目。该项目的目标是使用框架摄取工具将数据摄取到数据湖中。 -我将分批摄取 -
如何读取存储在adls路径上的csv文件而无需在本地下载
查找文件的命令如下: hdfs dfs -ls {adls 文件位置路径} 读取列出文件的命令 -
azure 数据工厂 v2 从具有不同文件名和结构的数据湖中摄取文件
我的任务是从数据湖存储中提取平面文件。 它们是多个文件,将存储在同一个逻辑文件夹中。 这