-
从AWS DataLake到RDS的ETL
我对DataLakes和Im比较陌生,我正在为AWS上的项目进行一些研究。 我已经创建了一个DataLake并具有从G -
Splunk迁移到S3 DataLake
我们正在考虑摆脱Splunk作为我们的数据存储,并考虑由S3支持的AWS Data Lake。 将数据从Splunk迁移到S3 -
数据存储库是否有行业标准大小?
我正在草拟数据迁移策略的文档,并且想知道以下每个数据存储库的行业标准大小(字节,兆字节,千 -
设计大数据系统的数据供应策略?
我正在大数据系统中设计数据供应模块。数据供应描述为 <blockquote> 从数据湖向下游系统提供数 -
Tableau(处理来自Datalake的数据)
我想知道您是否想与您分享使用Datalake作为可视化数据源的经验。我正在尝试透视Tableau桌面数据源中的 -
带有不兼容的sql_mode only_full_group_by的AWS Datalake Formation MySQL蓝图错误
使用AWS DataLake Formation蓝图将MySQL数据库导入S3。使用库存蓝图导入数据。但是作业失败,并显示以下错误 -
我如何捕获已吸收到数据湖中的数据量
我们有一个本地cloudera集群,我们在其中从各种来源按原样接收数据。数据主要在HIVE,KUDU,HBASE,HDFS中 -
发送请求时发生Powershell Set-AzDataLakeStoreItemAclEntry错误
尝试在Powershell ISE中执行以下命令 <pre><code>Set-AzDataLakeStoreItemAclEntry -Account "********" -Path "/raw2 -
在S3 Glue DataCatalog Binlog复制中构建MySQL表的视图
好的,这就是我想要做的。在我公司中,我们需要卸载Aurora MySQL DB(非常大的数据库,很多表和很多负 -
Data Lake不变性规则的例外
<a href="https://martinfowler.com/bliki/DataLake.html" rel="nofollow noreferrer">Data Lake should be immutable</a>: <blockquote> -
是否有按引用完整性(FK)依赖性顺序从Snowflake检索表名称的功能或方法?
我想基于它们的外键依赖性从排序模式中的给定架构中检索表名。例如,如果我在Snowflake中创建了以下 -
哪种文件格式适合非结构化数据?
我正在创建一个数据存储库,就像为no-SQL db创建数据仓库一样。我有一些字段没有适当的架构。它们具 -
数据湖治理工具
我正在就当前用于数据湖的数据治理工具集以及对这些工具的想法寻求建议: <ol> <li>管理数据模型- -
按日期统计单个组每月的交易数量
我有一张客户交易表,客户购买的每件物品都存储为一行。因此,对于单个事务,表中可以有多行。我 -
数据湖:修复提取与ETL上损坏的文件
<h2>客观</h2> 我正在构建datalake,总体流程类似于Nifi->存储-> ETL->存储->数据仓库。 Data Lake的一般 -
在AWS上实施CDC和重复数据删除
我想在AWS S3中构建一个Data Lake,并问自己如何使用CDC。我想避免从源中加载整个数据,而且我想避免在 -
我们可以限制特定用户访问Athena中的某些数据库,而其余用户应该查看其他数据库吗?
问题陈述: 我们可以限制特定用户访问Athena中的某些数据库,而其余用户应该查看其他数据库吗? < -
使用AzCopy将ADLS传输到Azure存储同步
寻求一些帮助来解决我面临的错误。让我解释一下情况。我正在尝试将ADLS Gen2容器之一同步到Azure BLOB存 -
数据湖的原始数据层可以包含表吗?
我在网上阅读的所有Data Lake文章都说登陆区包含文件形式的原始数据。但是,让我们说,我正在从某些 -
在数据湖中生成的段上维护uuid的最佳方法?
每天根据每个客户预测值。基于一系列预测值,我为每个客户+预测值(att1,att2等)创建uuid。 用 -
AWS Glue ETL作业通过Join.apply与SQL JOIN查询
我对AWS相当陌生,目前正在探索中。我希望对实现这项工作的最佳方法有一个见识或建议。 我想 -
对于基于Spring的微服务,我们如何从Data湖中推入和拉出数据。 。如何使用微服务与数据湖中的数据进行交互
我想创建一个基于Spring的微服务体系结构,在这里我可以收到有关产品的评论并将其存储到Data Lake中。 -
跟踪Datalake模式
我对跟踪Datalake中的模式有一个一般性的问题。在各种日志中,每个日志中都有一些字段。其他字段因日 -
studio 3t,导出文档过早到达流的末端,经过的时间05:53,并且那5:53的进度为0
studio 3t,导出文档过早到达流的末端,经过时间05:53,而那些5:53中的进度为0,我只能在Studio3t核心版本 -
用于存储有关表,其来源和DWH的ETL的信息的工具
我正在寻找用于存储有关DWH的表,数据源,etl流程等文档的工具。 我已经在youtube上看到了一些演示,但 -
AWS Glue将数据从RDS同步(需要将所有表中的4个表同步)到S3(Apache Parque格式)
我们正在使用Postgres RDS实例(db.t3.2xlarge,具有大约2TB的数据)。我们有一个多租户应用程序,因此对于 -
如何使用Python SDK从Azure数据湖中删除文件?
我正在为Python 3.8使用azure-storage-file-datalake插件。此处对SDK进行了深入的介绍- <a href="https://docs.microsoft.com -
用于在Tableau和Dataiku中打开数据集的API
我一直在寻找可以帮助我同时打开两个数据集的API。我的应用程序中有一个数据资产,我必须在其中添 -
在AWS Datalake /胶水UI
<a href="https://i.stack.imgur.com/RNEIu.png" rel="nofollow noreferrer">Image showing tables created. (crawler snapshot) </a> 即使Craw -
Glue Crawler可以爬取deltalake文件以在AWS胶目录中创建表吗?
我们有一个现有的基础架构,正在通过AWS爬网程序来爬网S3目录。这些S3目录是作为AWS datalake的一部分创