数据编织、数据网格以及数据虚拟化的作用

blog-image

客户常常就数据集成复杂性方面的问题向 Denodo 求助,这些问题通常包括数据孤岛、旧版应用程序、数字化转型、移动支持、实时数据需求、云和 SaaS 应用程序集成等等。此外,海量数据不断涌现,这些数据涉及到的所有者和利益相关者的范围非常广泛,对这些数据和人员进行管理也是一大难题。最近,业内开发出了某些模型,力求简化和解决这些难题。除数据集成外,客户也经常就数据网格和数据编织的概念向 Denodo 咨询,同时,作为数据虚拟化技术的领先供应商,我们也收到大量关于此技术适用范围的问询。

可以这样说,市场上的一些利益相关者对数据编织和数据网格的命名感到困惑,因为这两个术语给人的印象都是一种可以覆盖数据的可延展层或覆盖层。实际上,两者有很大的差别。因此,虽然这两种方法听上去很相似,并且的确都具备可以访问不同数据源的架构,但是数据编织关注的是技术,而数据网格则更关注组织方式和流程。

数据编织

Forrester 的分析师 Noel Yuhanna 是最早定义数据编织的人士之一,他在定义时考虑的主要是大数据场景。近年来,数据编织的发展势头强劲,该领域也一直备受关注。例如,Gartner 去年(2021 年)将数据编织列为十大数据和分析技术趋势之一。数据编织本质上是一个统一的架构,它能够提供一个管理框架,使用户能够轻松访问和共享不同数据。

ETL/数据仓库、主数据管理、数据虚拟化、数据目录、治理和安全等大量不同的工具都可能用于提升企业的数据编织能力。这一点在 Forrester 企业数据编织最新报告中得到了体现。从报告中可以看出,在数据虚拟化方面,Denodo 处于领导地位,可与其他技术类型的解决方案供应商比肩。

数据网格

数据网格最早由 ThoughtWorks 的 Zhamak Dehghani 定义,它是一种数据平台,联合了不同域的数据所有者的数据所有权。数据所有者能够凭借特定于域的数据和业务知识将数据创建为产品。因此,每个域都使用建模和聚合等方式,处理自身的域特定数据,这有助于实现业务层面的数据民主化和自助服务。不同于数据编织一体化的方法,这种分布式的方法使业务中的域能够管理自己的数据管道。

当然,这样的联合方式没有兼顾其他的业务元素,会造成开发的碎片化、重复和不一致,因此,域之间的互操作性对于数据网格至关重要。通用的可互操作层可以为整体语法和治理提供数据标准和规则,而这正是数据虚拟化的优势所在。

数据虚拟化

数据虚拟化通过在不同数据源和特定域的数据使用者之间部署虚拟层,帮助实现数据网格。与传统的 ETL/数据仓库模型不同,数据虚拟化无需“移动和复制”数据。相反,它在虚拟层构建语义模型,该虚拟层位于许多不同的数据源和数据使用者之间。这样,用户就能够在需要时提取所需数据,从而确保数据是实时或接近实时的,而不是从 ETL/数据仓库模型中提取出的静态数据。随着数据量持续增长,需要“移动和复制”数据的模型成本一路攀升;此外,随着数据变得愈加分散,数据虚拟化理所当然就成为现代化高性能数据架构的选择。Gartner 数据管理技术成熟度曲线将数据虚拟化置于“生产力成熟期”,这表明投资数据虚拟化技术的风险很低,但回报却很高。

拥有用于提取数据的数据虚拟化层必然可以帮助数据网格的架构获得所需的互操作性、治理和安全,同时也能够联合基于域的所有权和敏捷的商业智能。数据虚拟化集联合数据模型之大成,涵盖了性能优化以及自助式搜索和发现的高级功能。

 2022/09/06

添加新评论

验证码
此问题用于检测您是否是真正的访客并防止自动提交垃圾邮件。
图形验证
输入图片中显示的字符。

立刻行动

充分挖掘您的数据,获取实时洞察,
即刻开启数字化转型之旅!
18518356610


18518356610