数据存储革新

数据重力及其对于数据存储基础架构的影响

数据重力将影响整个 IT 基础架构。在规划数据管理策略时,应该将数据重力作为主要的考虑因素。

目录

数据重力 数据重力 数据重力

就像物质资本和知识产权一样,数据现在已成为各行各业的重要企业资产。随着结构化和非结构化数据的不断增长,数据将在未来几年以前所未有的速度激增。与此同时,数据蔓延(业务数据不再驻留在一个位置,而是越来越多地分散在数据中心和不同地理位置)提高了管理数据增长、移动和激活的复杂性。

企业必须通过实施策略,高效地管理跨云、边缘和端点环境内的海量数据。在设计大规模数据存储基础架构时,制定自觉、经过精心计算的策略比以往任何时候都更加重要。

适用于 TB 级存储的架构并非同样适用于 PB 级存储。由于企业需要克服大规模存储、移动和激活数据的成本与复杂性,因此他们将寻求更出色的经济性、更少摩擦和更简便的体验——简单、开放、无限,并为数据驱动型分布式企业量身打造。数据存储革新

在这些工作中,数据重力的概念是一个需要考虑的重要元素。

根据 Seagate 赞助的 IDC 最新报告《面向未来的存储:推进基础架构现代化,实现跨混合、边缘和云生态系统的数据增长》,随着与海量数据集相关的存储持续增长,其重力也将对 IT 领域内的其他元素不断施加压力。

一般来说,数据重力取决于数据量和激活级别。基本物理学提供了一个贴切的类比:物体的质量越大,对周围物体的重力影响就越大。IDC 报告:“存储数据量最大的工作负载将在其‘宇宙’中展现出最大的质量,并将应用、服务和其他基础架构资源吸引到它们的轨道上。”

大型活动数据集由于其复杂性和重要性,势必会影响需要与之交互的较小数据集的位置和处理方式。因此,数据重力反映出数据生命周期的动态变化,并且必然影响 IT 架构决策。

试想两个数据集:一个 1 PB,另一个 1 GB。为了整合这两个数据集,将较小数据集移动到较大数据集的位置更为高效。结果就是,拥有 1 PB 数据集的存储系统现在也存储 1 GB 数据集。因为大型数据集会“吸引”其他较小的数据集,所以大型数据库倾向于累积数据,这会进一步增加它们的整体数据重力。

管理、分析和激活数据还需依赖应用和服务,无论这些应用和服务是私有的,还是由公有云供应商或本地数据管理团队提供的。应用收集和生成数据,以及使用、分析和汇总数据;需要对数据进行大量处理。自然,数据集增长的规模越大,使用该数据的难度就越高,因此必须靠近帮助管理或激活数据的应用和服务。这样一来,应用和服务通常会移至数据集附近,或直接位于数据集周围。从本地数据中心到公有云和边缘计算,数据重力会影响整个 IT 基础架构。

但是,根据 IDC 报告,如此庞大的数据集可能会变成“黑洞”:“不管操作位置在哪里,除非 IT 环境设计允许对存储的数据,以及依赖于它的应用和服务进行迁移和管理,否则存储的数据、应用和服务将被限制在单一位置。”

数据重力将影响整个 IT 基础架构,因此在规划数据管理策略时,它应该成为主要的考虑因素。根据 IDC 的研究,设计数据生态系统的一个重要目标是“必须确保单个数据集不会对其余 IT 和应用生态系统施加不可控制的力量。”

确保应用可以访问存放在各个位置数据

IT 架构策略应将大容量存储和数据移动作为其核心。首先应从优化数据位置开始。以数据为中心的架构可使应用、服务和用户交互更接近数据所处的位置,而不是依赖耗时且通常成本高昂的长距离传输,将海量数据传输到集中服务提供商。

IDC 指出:“一种缓解数据重力影响的方法是,确保存储的数据与各处应用位于同一位置。”

这一模型可通过将多个私有和公有云服务提供商聚集在一处的共置数据中心实现,帮助企业将其海量数据存储与针对应用、计算和网络需求设计的理想解决方案配对。

以数据为中心的架构的主要目标是数据可访问性。可访问性提高数据管道的易用性和平稳运转,并会影响未来的业务创新,提高生成元数据和新数据集的能力,使数据搜索和发现成为可能,进一步赋予数据科学家将数据用于机器学习和人工智能的能力。

此外,将数据置于 IT 架构中心还可对应用性能优化、传输延迟、访问和出口费用,以及安全性和合规性需求产生积极影响。其他重要优势还包括数据的整体可靠性和持久性。可靠性是在需要时访问数据的能力,而持久性是在较长时间段内保留数据的能力。

将数据置于 IT 战略的中心

总而言之,这些考虑因素将对企业数据管理规划产生巨大影响——从定义总体 IT 战略,到制定业务计划。在规划所需的工作负载和作业时,必须考虑数据重力。需要回答的关键问题包括:生成或使用的数据量是多少?数据是如何在数据中心、私有云、公有云、边缘设备以及远程和分支机构分布的?数据在整个 IT 生态系统中的传输速度如何?解决这些考虑因素将提高数据基础架构的效率,并能减少代价高昂的数据管道问题。

IDC 在其报告中建议:“不要让单个工作负载或操作位置决定存储或数据资源的移动。”由于数据具有重力,因此必须设计数据基础结构,以防止海量数据集或单个大型工作负载对存储资源产生显著的引力。架构应能根据需要,高效地移动存储、计算或应用资源。

这意味着需要始终留意哪些数据集被传输至何处、什么是最有效的数据移动路径,以及什么有助于这些工作负载的最佳运行。这也意味着自动化数据移动以降低存储成本,或者移动性能不佳、并非立即需要或主动需要的数据集。自动化的元数据管理也值得考虑。这可以实现跨数据存储的搜索和发现,进而提高数据可访问性。

将这些想法付诸实践意味着部署自适应的数据架构、基础架构和管理流程。尽管组织可能已对当下的数据重力拥有深刻理解,但在五年后,情况可能会有所不同。

IDC 在报告中指出:“并非每个企业都管理多个海量数据集,但许多企业已经在这么做了。此外,鉴于业务数字化的发展,以及对于企业数据和数据收集价值的重视,许多组织在不久的将来会发现自己正在管理海量数据集。”

每个数据管理系统都可以通过变更来适应新的数据要求,这一点很重要。数据管理和支持它的数据架构必须足够敏捷,并且能够适应不断变化的业务需求和新兴技术机会。

阅读 Seagate 赞助的 IDC 最新报告《面向未来的存储:推进基础架构现代化,实现跨混合、边缘和云生态系统的数据增长》,了解有关混合架构、克服网络限制以及日益复杂的存储管理的更多信息。