成功迁移!从 VMware 至深信服云平台,大型制造企业的替换实践

摘要

某制造业企业为全球领先的通信服务及解决方案提供商, 业务广泛且复杂, 对 IT 基础设施的稳定性、可靠性和灵活性有着极高的要求。

某制造业企业为全球领先的通信服务及解决方案提供商, 业务广泛且复杂, 对 IT 基础设施的稳定性、可靠性和灵活性有着极高的要求。然而, 公司原 VMware 系统许可到期, 存在安全风险及存储管理、资源利用问题, 业务连续性受威胁, 且系统兼容性需求逐渐提升。为满足业务发展需求, 集团决定使用深信服超融合替换原有的 VMware, 以增强业务连续性和安全性。

一、现状与挑战

()技术层面

1.许可与安全问题

VMware 许可到期, 在出现漏洞时无法及时得到修复, 存在一定的安全风险。

2.功能缺失

网络安全防护:未使用 NSX, 因此业务系统东西向流量互访无法得到有效保障, 网络安全防护存在漏洞, 容易受到外部攻击。

虚拟化和存储管理:物理机在存储管理方面的功能相对有限, 无法满足日益增长的业务需求, 如资源动态分配、存储优化等。

()业务层面

资源利用效率低:物理机灵活性差, 资源分配固定, 无法根据业务负载的变化进行动态调整, 导致部分资源闲置, 而部分业务系统却面临资源不足的困境。

业务连续性风险高:物理机上线时间长, 故障风险持续增高, 没有 HA 机制保障, 一旦出现故障, 将导致业务中断, 影响用户业务的正常运行。

兼容性问题:随着新业务系统的不断上线, 对基础设施的兼容性要求越来越高,VMware 平台在某些方面无法满足需求, 限制了业务的拓展。

二、VMware替换方案设计

()整体规划

迁移目标:将用户的业务系统从 VMware 平台迁移到深信服的 HCI 平台, 实现业务的平稳过渡, 提高资源利用率, 增强业务连续性和安全性。

资源整合:对原有的物理机和 VMware 虚拟机资源进行整合, 统一管理和分配, 充分发挥 HCI 平台的优势, 提高资源利用率。

业务承载优化:根据业务系统的特点和需求, 为其在 HCI 平台上规划合适的资源配置, 确保业务系统能够稳定运行, 满足业务发展的要求。具体优化措施包括:对于计算密集型业务系统, 增加 CPU 和内存资源;对于存储密集型业务系统, 增加存储容量、提高存储性能。

()分层规划

1.计算资源层

CPU和内存配置:根据业务系统的性能需求, 为其分配合适的 CPU 和内存资源。例如, 对于一般的业务应用服务器, 可配置 2 - 4 颗 CPU 和 8 - 16GB 内存;对于数据库服务器, 可根据数据库的规模和并发用户数, 配置 8 - 16 颗 CPU 和 32 - 64GB 内存。同时, 考虑到业务的增长趋势, 适当预留一定的资源余量, 以确保系统的稳定性和可扩展性。

计算资源优化:利用 HCI 平台的智能资源调度功能, 实现计算资源的动态分配和优化, 提高资源利用率, 避免资源浪费。例如, 当某业务系统的 CPU 利用率超过 70% 时, 系统会自动将部分 CPU 资源分配给该业务系统, 确保其性能不受影响;当业务系统的负载降低时, 系统会将多余的资源分配给其他负载较低的业务系统, 提高资源利用率。

2.存储资源层

(1)存储类型选择:根据业务数据的特点和访问频率, 选择合适的存储类型。

全闪卷存储:对于性能要求较高的业务系统, 如数据库系统、在线交易系统等, 采用全闪卷存储, 具有读写速度快、响应时间短等优点。

混闪卷存储:对于存储容量要求较大、性能要求相对较低的业务系统, 如文件服务器、备份服务器等, 采用混闪卷存储。混闪卷存储采用固态硬盘和机械硬盘 (HDD) 混合配置, 在提供一定存储容量的同时, 也能保证一定的性能水平。本次混闪集群, 缓存比 10%, 共容量 1.7PB, 分为 XX 生产集群、XX 测试集群 、核心 ERP 集群。

(2)存储容量规划:

数据评估:通过对业务系统的数据量进行评估, 确定存储容量的需求。例如, 对于用户的核心数据库系统, 可通过数据库管理工具查看数据库的大小、数据增长速度等信息, 结合业务发展规划, 预测未来几年的数据量增长情况, 从而确定存储容量的需求。

冗余设计:为了确保数据的安全性和可靠性, 在存储容量规划时应考虑一定的冗余。一般来说, 冗余比例可根据业务的重要性和数据的价值来确定, 通常在 10% - 20% 之间。以用户的核心数据库系统为例, 可根据未来 3 年的数据量规划存储容量, 并在此基础上增加 20% 的冗余容量, 以确保在数据量增长超过预期时, 存储系统仍能满足需求。

三、迁移方案设计与实施

(一)迁移目标

1.业务平稳迁移:确保所有业务系统在迁移过程中平稳过渡, 不影响业务的正常运行。

2.资源优化整合:将原有的物理机和 VMware 虚拟机资源进行整合, 实现资源的统一管理和高效利用。

技术要点:在迁移过程中, 对于 CPU 的评估至关重要。需获取用户业务最高峰时的 CPU 利用率, 并按照物理 CPU 核数 / 50% 的公式来计算。例如, 原先某物理机的使用情况为 48C, 其 CPU 利用率达到 80%, 那么按照公式计算:48C * 80% / 50% = 76.8C。所以, 在配置虚机 CPU 时, 其核数不应低于 76C, 以此确保迁移后系统的性能和稳定性。

3.性能提升优化:通过优化系统配置和架构, 提升业务系统的性能, 提高用户体验。

4.安全可靠保障:建立完善的安全防护体系, 确保业务数据的安全和可靠。

()迁移策略

1.分阶段迁移:根据业务系统的重要性和依赖关系, 分阶段进行迁移, 先迁移非核心业务系统, 再迁移核心业务系统, 确保关键业务的稳定运行。

2.数据备份与恢复:在迁移前对所有核心业务数据进行备份, 迁移过程中确保数据的完整性和准确性, 迁移完成后进行数据恢复和验证, 确保业务数据的可恢复性。

3.风险评估与应对:对迁移过程中可能出现的风险进行全面评估, 制定相应的风险应对措施, 如网络故障、数据丢失、系统兼容性问题等, 确保迁移工作的顺利进行。

()ERP系统迁移

ERP 系统作为用户全球业务的核心支撑系统, 承载着财务报表、财务支付、仓库管理等关键业务流程。这些业务涉及到公司的资金流动和物资管理, 对公司的运营和发展至关重要。

1.迁移考虑与解决方案

业务可用性与时间考量

(1)总体思路:在迁移过程中, 重点考虑了迁移所需时间和速度问题, 确保迁移后业务能正常使用。

(2)业务切换时间与方案选择

时间限制:用户期望业务迁移切换时间在10分钟内

方案决策:与用户业务部门探讨后, 鉴于重新搭建软件投入成本和负载配置变更等因素, 选择了SCMT点对点的迁移方案

综合方案:成本最优、时间控制在10分钟内

虚拟机迁移:采用深信服 SCMT 进行虚拟机级别迁移, 此方式不改变业务访问, 成本最优, 并且能够将中断时间控制在5分钟以内

业务发布:由于 ERP 已具备容灾能力, 在迁移主生产 ERP 时, 先提前将业务切换至灾备 ERP。生产 ERP 迁移完成后, 先进行业务测试, 验证无问题后, 再正式发布到生产业务中。

节省时间方案:中断在1分钟内

重建业务系统:协调业务部门重新搭建一套新的 ERP 业务系统。

调整负载均衡:调整前端负载均衡配置, 增加负载节点池新节点, 通过负载进行业务切换。

(3)具体实施

迁移规划:鉴于用户的 ERP 业务有容灾环境, 超融合实施完成后, 先进行一轮迁移测试。从 22 号开始, 逐个服务组件进行迁移测试, 顺序为先迁移 ascp 业务 (前端 portal 组件), 后迁移 wms 仓库系统, 最后迁移 ebs 财务核心系统, 遵循从边缘业务到核心业务的原则。

业务验证方式:迁移完成后, 临时将业务切换至新环境, 设置为容灾 IP, 并使用用户现有的容灾环境, 通过 jmeter 模拟上千客户端访问, 对业务和压力进行验证, 以确保业务能正常访问。

(4)迁移过程细节

物理机与迁移速度:每台物理机空间约为 1T, 每个迁移任务的速度约为80MB/s, 整体迁移测试耗时约两天

数据量与迁移阶段:本次迁移 ERP 核心业务系统, 从 2024 年 9 月 20 号开始实施, 至 24 年 10 月 1 号结束。整个过程包括迁移前期测试、迁移过程和迁移切换后的业务验证, 共约10天完成核心业务迁移。

(5)迁移问题解决

软件冲突问题:用户的所有物理机均安装了爱数和科力锐备份软件。在安装 agent 进程之前, 必须对这些软件进行卸载, 并寻找合适的窗口进行重启。否则, 将会出现无法正常识别源机的问题, 从而影响迁移工作的顺利进行。

安装环境问题:源业务虚拟机内部安装了杀毒软件, 这有可能导致 scmt 的 agent 进程无法正常运行。因此, 在迁移时, 建议先退出杀毒软件, 然后再进行 agent 的安装操作。

2.赋能用户自主迁移

(1)背景

用户面临着上百台虚拟机的迁移任务。从以用户为中心的理念出发, 帮助用户节约成本是方案设计的重要考量, 同时考虑到用户运维人员对业务系统的运行情况更为熟悉, 且深信服的迁移方案已实现标准化, 经与用户沟通并达成一致后, 决定通过为用户提供详细文档和专业培训的形式, 使用户能够自主进行业务迁移。这样一来, 减少了对外部技术支持的依赖, 从而降低了直接的技术支持费用支出。

(2)培训及落地关键思路

技术培训内容:为用户制定详细的技术培训方案, 包括 HCI 平台的基本架构、虚拟机的管理、数据迁移工具的使用等方面。通过理论讲解、实际操作演示和案例分析等方式, 让用户深入了解 HCI 平台的技术原理和操作方法。

业务流程培训:结合用户的业务特点, 培训用户如何在 HCI 平台上进行业务系统的部署、迁移和管理。包括业务系统的安装、配置、优化以及故障排除等方面, 让用户能够熟练掌握业务系统在新环境中的运行和维护。

技术支持保障:作为厂商, 深信服为用户提供技术兜底服务, 在用户自主迁移过程中, 若遇到技术难题或突发问题, 厂商将及时进行支撑处置。确保用户在任何时候都能得到专业的技术援助, 为用户的自主迁移之路保驾护航。

(3)成果

在用户具备迁移能力后, 成功且平稳地完成了 MES(制造执行系统)、PLM(产品生命周期管理系统)、BPM(业务流程管理系统)、SRM(供应商关系管理系统) 等业务系统的迁移。这一成果在为用户节约成本方面成效显著。这得益于用户自身所具备的一定的技术能力, 同时借助于深信服迁移方案的成熟性、工具的易用性以及全方位的技术支撑。正是在这些因素的共同作用下, 才使得此次迁移得以顺利完成, 充分展现了用户与深信服在业务系统迁移过程中的高效协作与卓越执行。

四、业务替换总结与现状

()迁移成果

截至目前, 已完成大量业务系统的迁移。其中包括上百台 VMware 虚拟机迁移以及几十台物理机迁移,VMware 还有约三分之一的虚拟机未迁移。预计 25 年初, 还计划将 10 台物理机上的业务迁移至 HCI。

()关键业务承载现状

在 HCI 平台上实现多种功能, 为业务系统带来全方位的提升, 为用户带来了显著价值。

1.业务系统性能提升

(1)资源利用率优化

成功将业务系统部署在 HCI 集群, 实现资源利用率的优化。

在正常情况下, 内存和 CPU 的使用率均在 40% 以下, 有效避免资源浪费, 确保系统高效运行。

当业务繁忙时, 内存利用率能够达到 80%, 充分满足业务高峰需求, 同时保证系统的稳定性。

(2)虚拟机互斥保护

对核心业务系统配置虚拟机互斥保护, 例如优先保障 ebs 资源, 有效防止应用集中在同一台物理机上。

这种配置方式显著提高系统的稳定性, 避免因单一物理机故障影响多个核心业务应用。

通过合理分配资源, 提升业务系统的整体性能, 确保各项业务的顺畅运行。

(3)HCI平台功能优势

分布式防火墙配置

实现分布式防火墙配置, 增强安全防护能力, 有效抵御外部网络威胁, 保障业务数据安全。例如, 在一次针对用户的网络攻击模拟测试中,HCI 平台的分布式防火墙成功识别并拦截了来自外部的恶意访问尝试, 阻止了潜在的数据泄露风险, 确保了财务报表、用户信息等重要业务数据的安全性。

问题及时处理

具备快速处理问题的能力, 提高运维效率, 减少因系统故障导致的业务中断时间。此前有一次, 用户的某个业务系统出现了异常, 导致部分用户无法正常访问相关功能。HCI 平台的监控系统迅速发出警报, 运维团队借助平台提供的工具和信息, 快速定位问题为服务器内存溢出。通过及时调整内存分配和优化相关配置, 在短短 30 分钟内就解决了问题, 业务恢复正常, 将对业务的影响降到了最低。

业务性能分层

能够进行业务性能分层, 合理分配资源, 优先保障核心业务资源使用, 确保核心业务的高效运行。以用户的 ERP 系统为例, 在财务结算期间, 核心的财务计算和报表生成任务被分配到高性能的计算资源层, 确保这些关键业务能够快速、准确地完成。而其他非核心业务, 如一些日常的查询和报表预览功能, 则在相对较低性能的资源层运行, 既满足了业务需求, 又避免了核心业务因资源竞争而受到影响, 提高了整体业务处理效率。

网络访问关系清晰

可以清晰查看网络访问关系, 优化网络管理, 便于排查网络故障和优化网络配置。用户在一次网络架构调整过程中, 通过 HCI 平台提供的网络访问可视化功能, 运维团队清晰地看到各个业务系统之间的网络连接情况以及数据流向。他们发现某个部门的业务系统与其他部门的部分系统存在不必要的大量数据交互, 导致网络拥堵。基于此, 他们对网络访问权限和路由进行了优化, 减少了不必要的网络流量, 提高了整个网络的运行速度和稳定性。

数据备份防护

可对核心业务数据进行备份防护, 提高数据安全性, 在数据丢失或损坏时能够及时恢复。例如, 用户的仓库管理系统数据因一次意外的服务器故障出现部分丢失风险。由于 HCI 平台的备份防护机制, 系统能够迅速从最近的备份点恢复数据, 确保仓库库存信息、出入库记录等关键数据的完整性, 避免了因数据丢失可能导致的仓库管理混乱和业务损失。

(4)程序升级保障

在程序升级等变更操作时, 可使用快照技术做兜底保障。

这种保障机制有效降低业务风险, 确保在升级过程中即使出现问题, 也能够快速恢复到之前的稳定状态, 避免对业务造成严重影响。

(5)定期主动做深度检测

根据业务系统的重要性和运行特点, 制定每两周一次的巡检计划。明确巡检的时间窗口、范围以及重点关注的指标和系统组件。

通过定期的巡检与同步, 能够在问题尚未对业务造成严重影响之前及时发现潜在的系统故障、性能瓶颈或配置错误。

由于巡检过程中已经对问题进行了详细的分析和记录, 并提供了建议解决方案, 运维人员可以快速定位问题并实施修复, 减少系统停机时间, 保障业务系统的稳定运行。

2.成本节约与灵活性提升

(1)减少外部依赖

通过培养用户自主迁移能力, 减少对外部技术支持的依赖。这不仅降低迁移过程中的人力成本, 还使用户能够更好地掌控迁移过程, 提高迁移效率和质量。

(2)平台优势体现

HCI 平台的使用带来多方面的成本节约和灵活性提升。

解决原有问题

解决原有物理机灵活性差和资源利用率低的问题, 提高资源的统一管理和高效利用, 避免资源闲置和浪费。

降低硬件成本

减少对硬件设备的依赖, 降低硬件采购和维护成本, 为企业节省大量资金。

(3)根分区案例体现

例如在 10 月 15 日 11 时发生根分区使用过载的问题时,HCI 平台展现出其灵活性和成本优势。

快速扩容

借助 HCI 的灵活性, 能够快速完成扩容操作, 及时满足业务对存储空间的需求。

避免中断

有效避免业务中断, 确保业务的连续性, 减少因业务中断带来的经济损失和不良影响。

解决隐患

成功解决业务安全隐患, 保障业务系统的稳定运行, 体现 HCI 平台在应对突发情况时的可靠性和经济性。

用户价值

深信服为用户提供更稳定、性能更优、更安全的云底座, 大幅提升平台的易用性——相较于 VMware 需要联合第三方备份工具操作,HCI 平台操作更加简单易懂, 例如有回收站和备份恢复等功能, 使得用户体验更为流畅。同时, 在迁移过程中, 深信服可为用户提供更及时、高效的技术支持, 以完整的迁移工具及服务、细致严谨的评估与规划, 确保迁移过程顺畅, 保障业务连续性。

来源:互联网

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。