没有任何一个数据存储库能成为您的万能法宝

blog-image

如果您从事数据管理工作,您很可能会帮助您的公司重新定义数据分析架构,尤其是在云计算日益普及的当下。在这个过程中,有些人可能会盯着您架构中数不胜数的盒子和缩写这样说:“既然一切都要重新定义,我们能不能简单地将所有数据整合在一个单一系统中,比如说数据湖或湖仓一体?”

有这种疑问很正常。从多方角度来讲,管理采用不同技术的不同系统既繁琐复杂又成本高昂,因此,企业自然希望能有一个单一平台满足所有数据分析需求。市场上的一些供应商对企业称,他们现在可以帮助企业实现这一目标,因为云存储成本很低,而且他们的产品支持几乎所有类型的分析。

我们不妨后退一步

但这种想法有一段颇为复杂的历史。即便回到一切更为简单化的 90 年代,我们也无法将所有用于分析的相关数据存储在一个单一的数据仓库中。因此,我们的怀疑也并非空穴来风,因为现如今,数据量是以往的数百倍,数据也比以往更加分散。关于数据湖,我们在大约 10 年前就听到过非常类似的故事,这些故事通常也是出自同一批公司之口。一如既往,事实再次证明,数据湖技术对一些任务非常好用,对于其他一些任务则不然。

这次会有所不同吗?我对此持怀疑态度,因为异构性和广泛分散的数据的决定因素从来都不是存储成本。它们的产生是因为组织由多个独立做出决策的自主部门构成,各部门各行其是,使用最合适自己的工具处理各项任务,而并无普遍适用的解决方案。

这便是为何现在大多数大型企业在本地和云端维持运行多个不同的数据仓库和数据湖,并构建操作数据存储、NoSQL 存储库、云对象存储和 SaaS 应用程序。他们可能有意停用其中几个系统,但这势必会造成高昂的迁移成本。但在大多数情况下,他们保留这些系统只是因为它们是解决特定需求的最佳方式。

最近,Gartner 表示:“要全方位满足现代数据和分析需求,单一的数据持久性层和处理类型还远远不够。”如果您认真研究一下云提供商的参考架构,您就会发现,即便您能够将所有数据迁移到云端(这个假设可不小),您还要面临一个问题,就是各家云提供商为不同任务和数据类型提供不同的处理引擎。

当然,事实是这种系统多元化带来的优势是有代价的。如果数据分布在不同的系统中,那么集成起来就会非常缓慢,并且价格高昂。另外,用户也无法再通过单一访问点访问可用数据。安全和治理也会变得更加困难,因为您需要确保在所有系统中应用一致的策略。

更好的方法

Gartner 和 Forrester 等主要市场分析机构提出的解决方案是像逻辑数据仓库数据结构这样的分布式架构(另请参见“Demystifying the Data Fabric(解密数据结构)”)。这些架构中的一个关键组件是数据虚拟化层,它可以弥合数据处理引擎和数据使用者之间的鸿沟。

数据虚拟化层提供以下关键功能:

  • 根据数据复制以比传统方案速度更快、成本更低的方式,敏捷集成分散于不同系统的数据(Gartner 预计使用数据虚拟化可以实现 45% 的成本节省
  • 统一语义层,让组织能够创建适当的虚拟模型,将数据以各类使用者所需的形式、格式和结构呈现给他们,并让利益相关者能够分层组织虚拟模型,鼓励重复使用语义定义和数据转换
  • 使用者能够使用 SQL、REST、OData 和 GraphQL 等技术访问数据,无需任何代码即可在几分钟内创建数据 API
  • 支持通过单一点跨所有数据处理引擎应用语义、安全、治理策略,并且可为数据使用者提供单一真实数据来源
  • 支持实施“数据市场”,业务用户在这里可以找到或获取相关的数据,而无论其位于哪里
  • 数据抽象化层,让组织可以在不对数据使用者造成任何影响的情况下,将数据从一个位置或系统迁移至另一个位置或系统
  • 智能缓存和加速,可选择性地复制小型数据子集,加速对缓慢数据源的查询,并加快分布式查询的速度(查看此帖文,了解技术详情)

总结

我的建议很简单:从历史中汲取经验教训,假定您永远没有满足所有分析需求的万能法宝,然后对您的数据管理架构进行相应的规划。

Alberto Pan
Alberto Pan Executive VP & CTO, Denodo Denodo

 2022/09/06

添加新评论

验证码
此问题用于检测您是否是真正的访客并防止自动提交垃圾邮件。
Image CAPTCHA
输入图片中显示的字符。

立刻行动

充分挖掘您的数据,获取实时洞察,
即刻开启数字化转型之旅!
18518356610


18518356610