大数据已然根深叶茂
所有业务如今都有一个共同点,即都是数据业务。 各组织无不致力于充分利用其大数据和流式数据,将这些数据转化为信息和知识,以此推动业务增长。
鉴于互联网连接设备和网络平台不断增多,认知科学、机器学习和物联网等趋势方兴未艾,数据的数量、种类和速度因而持续上升,并且可以预见未来还将延续这种势头。 随着复杂性增加,IT 部门也希望通过自助式分析和报告平台,为所有大数据科学家和业务用户提供支持。
到 2020 年,大数据和业务分析市场价值将增至 2,030 亿美元。


然而您需要的不止是大数据
尽管大数据为各行各业带来推动业务发展的诸多契机,但挑战总与机遇相伴相生,组织形式不同、规模大小各异的企业也都面临一系列挑战。
- 大数据不再只与 Hadoop 同义, Spark、Hive、Presto、Kafka、Impala 逐渐挤占大数据和流式数据的存储及查询空间。 异构性会在所有组织内部各业务单位之间引发信息不一致,因为不同用户团队对大数据分析各有所求。
- 对于数据隐私和数据安全的关注随着大数据的兴起愈加凸显, 增多的大数据孤岛也带来更多各自为战的数据隐私和数据安全要求。
- 数据使用应用程序年深日久增量可观,而其中为数众多的应用程序与各类大数据或流式数据来源很难顺畅交互,甚或根本无法交互。
借助数据虚拟化提取大数据价值
数据虚拟化技术提供灵活且经济高效的方法,用于统合、治理和管理大数据,并克服大数据孤岛的先天挑战, 我们称之为大数据虚拟化。 大数据虚拟化有三大主流应用场景。
逻辑数据湖
数据虚拟化将一个或多个数据湖与传统数据仓库、主数据管理系统、云端等来源进行衔接。 该应用场景针对其他企业来源的数据提供更多情境,由此改善数据湖的企业功能。
数据仓库卸载
数据虚拟化将不常用数据或冷数据从企业数据仓库卸载至 Hadoop 集群,以释放昂贵的企业计算资源。
物联网分析
数据虚拟化将流式数据与其他企业数据源相结合,使流式数据对业务用户更有实际意义及实用价值。
大数据与数据虚拟化结合运用的优势
对大数据及其他企业或云数据源执行虚拟化并结合运用,能够带来诸多优势,让组织真正从大数据中获益:
减少成本高昂的大数据复制
在整个组织范围内减少成本高昂的大数据复制,同时大幅缩短产品上市周期。
形成一致的数据治理
跨本地和云端各类系统形成一致的数据治理、隐私和安全结构。
提供灵活性和敏捷性
实现跨各种来源和使用者系统的便捷连接,为大数据和物联网分析提供灵活性和敏捷性。
简化信息的创建与使用
通过创建抽象层简化信息创建和使用模型,使业务用户远离底层复杂性。