Microsoft限制使用范围和最佳实践

因此,我们正在考虑在组织中使用多维数据集。

现状:

  • DWH(Azure MS SQL)查询语言-SQL
  • microsoft列存储(不是真正的多维数据集)查询语言DAX(虽然有MDX支持,但看起来实现起来很差-低效)
  • Tableau(BI系统,报告)可以使用SQL和MDX

已知问题:

  • 使用MDX时,按日期存在聚合问题(我们应在查询中显示年,月,日期层次结构),而DAX则没有此类问题。
  • microsoft列存储效率低的运行总计计算。

我们现在如何解决此问题:

  • 使用microsoft列存储,实现总运行量,但不会在所有报表中使用这种“多维数据集”,仅用于真正需要它的少数人
  • 在DWH中实现运行总计。所有Tableau报告都使用它
  • 在DWH中,我们具有每日制粒的数据(例如:我们有一条记录已于11月1日,11月5日,11月15日更改,在DWH中有3条记录之前,现在有15条记录)。我们需要像这样才能真正快速地获取任何日期数据(基本上我们正在实现自己的多维数据集行)

优点:

  • 没有人需要深入了解DAX和MDX语言
  • 我们不应该重构任何东西

Cos:

  • DWH上载(更新)将比现在更长
  • DWH将变得更大(每天的记录数据)
  • 我们需要以手动方式维护运行总计字段

已知的替代方法:

  • microsoft Power BI-可以真正高效地使用DAX和MDX
  • microsoft Analysis Services多维数据集(Real多维数据集)-只要我们关注,MDX就可以高效运行,而不像microsoft Column Storage中一样

问题:

  • 首先:如果有可能,我真的想对您用来理解在开发和维护解决方案时会导致疼痛的原因和原因的技术印象。
  • 第二:如果您对我们目前的方法提出任何批评,将不胜感激-为什么这样不好?
  • 第三:立方体死了吗?我的意思是Google不会展示自己的多维数据集,也许本身的技术是死胡同?
  • 最后:如果您对我们需要使用的东西有任何建议-很棒。
mahate 回答:Microsoft限制使用范围和最佳实践

我试图根据我的经验逐步回答它,对于单个技术或个人来说,问题太大了。

  

首先:如果有可能,我真的很想让您对   您用来了解导致疼痛的原因的技术   在开发和维护解决方案时。

在不同的分布式技术上,仓储,多维数据集,报表,查询正在快速发展,这些分布式技术可以在相对便宜的硬件上水平扩展,按需扩展/缩减并且还可以快速扩展。另外,随着Internet带宽,全球化,社交网络和各种原因的增加,数据大小也在不断增加。 Hadoop和Cloud最初填补了分布式技术的空白,该技术可以在水平分布式上发展并且可以轻松地向上/向下扩展。

拥有一个具有高计算量和高RAM的sql服务器来存储内存中的高数据的mdx,多维数据集通常是垂直扩展,成本很高,即使我们使用SQL Server,也无法像水平分布那样容易地缩减规模云。

现在,拥有优势的是开发大数据解决方案,学习曲线和维护的复杂性,这对于至今为止还不熟悉它的新采用者来说,又是一个巨大的挑战。

  

第二:如果您对此有任何批评,将不胜感激   我们当前的方法-为什么这么糟

没有解决任何问题的金光闪闪或一线希望的架构,而不会遇到一些自身的问题。根据您当前的组织结构,您的方法再次可行并且具有优缺点。我假设您的团队熟悉SQL Server,mdx,多维数据集和列存储,并且还进行了可行性分析。我看到的唯一问题是,当数据量增加时,SQL需要更多的计算能力和RAM,而这通常可以通过升级VM /计算机来完成。垂直缩放成本高昂,而且有时会受到限制。同样,在这种基础设施上进行故障转移/灾难恢复的成本也更高。

  

第三:立方体死了吗?我的意思是Google不会展示自己的多维数据集,   也许技术本身就是一个死胡同?

如果您能找到对它的支持,那么技术就不会死,即使是汇编,C,C ++,Cobol在旧项目中以及在其适用性比其他项目更好的情况下,都仍然很强大。

  

最后:如果您对我们需要使用的东西有任何建议-   很好。

对至少3-4种类型的解决方案/体系结构进行POC(概念验证),最适合您的成本/技能/时间框架,您将是最佳的判断力。

我可以建议您是否愿意接受基于云的解决方案,如果可以满足您的要求,请尝试探索其他解决方案,例如使用天蓝色数据工厂的Data Lake进行概念验证。

我最近还通过了Microsoft的一个现成的解决方案,值得一看: Azure Synapse Analytics https://azure.microsoft.com/en-in/services/synapse-analytics/)。它具有内置的数据仓库支持,查询,对AI / BI,流,数据湖探索,安全性,规模,对Spark的支持以及PowerBI的各种其他来源的支持,见解/可视化显示。

本文链接:https://www.f2er.com/3085410.html

大家都在问