如果我们观察典型的数据科学生命周期,会发现其中许多阶段与“数据”相关的内容远远多于与“科学”相关的内容。在数据科学家能够开始进行数据科学相关工作之前,他们通常需要先完成一些准备工作:
1. 找到合适的数据
2. 要获取那些数据,可能需要先建立相应的身份认证。
3. 将这些数据转换为可使用的格式
4. 将这些数据与其他来源的数据结合起来
5. 如有必要,对数据进行清理,剔除那些不完整的数据点。
输入数据虚拟化相关信息
数据虚拟化能让数据科学家们实时、全面地查看数据在各个存储位置上的情况。最棒的是,无需将数据从原来的存储位置转移到诸如数据湖或数据仓库这样的集中式存储库中,就能实现这种查看方式。
数据虚拟化能够实现这一点,因为它在各种数据源之上构建了一个统一的数据访问层。该层不包含任何原始数据,只包含访问不同数据源所需的关键元数据。
数据虚拟化不仅有助于数据的查找与获取,由于它作为独立的数据访问层存在于各种数据源之上,因此还能实时地对数据进行转换、整合和清洗处理。
在这里,我将详细介绍数据虚拟化如何在典型的数据科学工作流程中为数据科学家提供支持:
- 识别有用数据:数据虚拟化让数据科学家能够轻松访问各种类型的数据源,包括数据湖、Presto或Spark系统中的数据、社交媒体上的数据,以及各种结构化文件和JSON文件。Denodo平台配备了内置的数据市场,数据科学家可以利用类似搜索引擎的简单搜索功能,轻松找到所需的数据。
- 将数据转换为可用格式:Denodo Assistant 通过智能连接和管理各种数据源,简化了数据管理流程。其人工智能驱动的功能可增强或自动化与数据相关的任务,提供实时、智能的数据访问。对于数据使用者而言,这包括在 Denodo 数据市场中进行对话式访问,使非技术用户能更轻松地提出问题、了解可用数据并获得可信答案,而无需依赖专业技术知识。这些功能共同助力数据工程师和业务用户更快地发现见解、做出更优决策,并以最少的手动操作从数据中挖掘更多价值。
- 数据分析:借助数据虚拟化技术,数据科学家可以在发现数据后立即对其进行分析,也可以在数据被转换为不同格式之后进行分析。此外,他们还可以随时根据需要来分析数据。
- 准备和执行数据科学算法:Denodo平台配备了查询优化器,通过多种技术手段提升查询效率,其中一种技术就是将处理任务下推到数据源处进行执行。用户可以根据实际情况,选择将部分操作下推处理,从而获得最佳效果。
- 与业务用户共享成果:数据虚拟化为数据科学家提供了与团队其他成员共享查询结果的平台,从而实现更加高效的合作与迭代式工作流程。尤其是当使用像Denodo平台所提供的数据目录时,这一优势更为明显。通过数据虚拟化,数据科学家还可以将数据直接导入到MicroStrategy、Power BI或Tableau等应用程序中,然后利用自己熟悉的工具来查看处理结果。
数据虚拟化:数据科学的基础
数据虚拟化可以在数据科学生命周期的任何一个阶段被应用,从而简化各项数据科学相关工作。数据虚拟化让数据科学家们能够实时获取来自不同数据源的信息,从而便于数据的处理与分析,同时也有助于实现高效的协作。