211 高校的 VMware 迁移之路:迁至深信服云平台,更高效、更稳定

摘要

某 211 高校为国家「双一流」建设高校、省一流大学, 在教育领域占据举足轻重的地位。其教学单位构成丰富多元, 学科体系广泛而全面。

某 211 高校为国家「双一流」建设高校、省一流大学, 在教育领域占据举足轻重的地位。其教学单位构成丰富多元, 学科体系广泛而全面。然而, 学校面临着 VMware 虚拟化平台维保到期、服务器老化等严峻挑战, 严重干扰了教学、科研及管理工作的有序开展。为确保各项业务平稳过渡与升级, 学校决定采用深信服超融合替换原有的 VMware, 以实现网络可视化、智能监控与告警, 并构建高效的灾难恢复能力, 为智慧校园的建设奠定坚实的基础。

一、现状与挑战

(一)平台维保问题

VMware 虚拟化平台维保到期, 平台厂商停止提供售后服务和升级服务, 给学校使用带来诸多不便, 潜在风险增加。

影响:随着学校业务的发展, 对平台的稳定性和功能要求越来越高, 维保到期可能导致平台出现故障, 影响教学、科研和管理工作的正常进行。

(二)服务器老化问题

大量硬件服务器老旧过保, 频繁宕机, 已经影响到正常业务运行。

影响:服务器老化严重降低了系统的可靠性和稳定性, 导致业务中断频繁, 不仅影响了工作效率, 还可能造成数据丢失和业务损失。

(三) 资源瓶颈问题

学校现有内存资源和存储资源使用率已达 80%, 而建议计算资源使用率不超过 70%。随着智慧校园建设的推进, 信息化业务不断增加, 新业务将逐步上线, 当前云平台资源无法满足未来 3 - 5 年的扩展需求。

影响:资源不足将限制学校业务的发展, 导致系统性能下降, 用户体验变差, 无法满足教学、科研和管理工作对信息化资源的需求。

(四) 管理混乱问题

学校目前有多个虚拟化平台管理端, 登录入口分散, 管理员需要分别登录不同入口操作不同服务器, 多个平台之间缺乏统一管理、流程打通和调度, 无法有序结合。

影响:管理混乱增加了运维成本和难度, 降低了工作效率, 容易出现错误和漏洞, 影响系统的整体稳定性和安全性。

(五) 灾备机制不完善问题

学校当前灾备机制不完善, 仅有备份一体机且空间有限, 仅对部分数据进行备份, 大量重要业务数据未建立备份。同时, 多校区数据中心之间容灾机制尚未建立, 缺乏有效的异地灾备机制。

影响:在面对电力故障等突发情况时, 业务无法快速恢复, 可能导致数据丢失和业务中断, 给学校带来严重的损失。

二、整体方案

通过本次项目建设助力学校信息化实现以下目标:

1.先进替换目标

对原 VMware 服务器虚拟化承载的核心业务进行逐步替换, 采用先进厂家平台, 提高学校信息化系统的稳定性和可靠性, 为学校的发展提供有力保障。

2.统一平台纳管目标

搭建统一资源管理平台, 将 VMware 虚拟化平台、物理服务器资源以及 GPU 场景等资源由统一云计算管理平台纳管, 统一进行资源调度和分配, 提高学校数据中心设施利用率, 避免重复投资, 同时降低运维成本。另外通过 SCP 云管平台统一纳管多资源池, 包括全闪资源池、混闪资源池、容灾资源池、VMware 利旧资源池。

(1) 纳管超融合资源池

(2) 纳管 VMware 资源池

3.建立高稳定、高可靠的业务管理平台目标

利用高配置服务器搭建资源池集群, 满足学校关键业务和通用业务的稳定承载, 通过云平台内存 ECC、主机、磁盘、RAID 亚健康检测、HA、DRS 等机制实现高可靠性, 确保学校核心业务的稳定运行, 提高系统的可靠性和可用性, 为教学、科研和管理工作提供坚实的支撑。

4.构建一朵安全的云目标

全面提高云平台整体安全性, 充分考虑网络安全功能及其扩展功能, 包括虚拟机横向流量隔离能力、虚拟机杀毒能力、网络层安全防护能力、应用层安全防护能力等。保障云平台的安全运行, 防止网络攻击、数据泄露等安全事件的发生, 保护学校的信息资产和师生的个人信息安全。

5.建立一体化的灾备体系目标

依据教育部相关规范要求, 构建集中化的灾备体系, 实现数据集中备份, 健全备份策略和恢复机制, 确保在突发情况下业务能够快速恢复。提高学校的灾备能力, 保障数据的安全性和可用性, 降低因灾难导致的业务损失。

6.一整套平滑虚拟化迁移服务目标

基于成熟方法论和工具, 将 VMware 平台中的不同业态、不同架构和停机要求的虚拟机平滑稳定地迁移至新平台, 确保业务的连续性和稳定性。实现业务的平滑迁移, 减少对学校教学、科研和管理工作的影响, 确保业务的正常运行。

三、业务迁移

()信息收集

1.目标

全面了解 VMware 平台的现有配置和运行状况, 为后续迁移方案的精准设计提供详细、准确的数据基础。

识别不同业务系统在硬件、软件和网络层面的依赖关系和特性, 确保迁移过程中不丢失任何关键信息, 保障业务的完整性和连续性。

2.关键点

通过获取主机、虚拟机、存储、网络等全面信息, 能够提前评估迁移的难度和风险, 为制定合理的迁移计划和资源分配提供依据。

准确的信息收集有助于避免在迁移过程中因配置不匹配或信息缺失导致的业务中断和数据丢失, 提高迁移的成功率和效率。

3.细致入微的信息收集过程

(1)主机信息目标:明确平台的计算资源和基础架构信息, 了解主机的性能瓶颈和潜在风险点。

重点关注点:为评估平台是否满足业务需求以及确定新平台的资源配置提供关键数据, 确保迁移后的性能提升。例如, 通过获取 CPU 总容量和内存总容量等信息, 可以合理规划新平台的硬件选型和资源分配, 避免资源浪费或不足。

导出 CSV 报告, 获取平台 CPU 总容量, 内存总容量, 共有 11 台主机,vCenter 版本为 6.0。

(2)虚拟机信息目标:掌握虚拟机的配置细节, 包括硬件、存储和网络设置, 以便在迁移过程中准确复制和恢复虚拟机环境。

重点关注点:保障虚拟机在迁移后能够正常运行, 维持业务系统的正常服务。例如, 对于具有特殊配置的虚拟机, 如挂载外置存储 LUN 卷的虚拟机, 准确的信息收集有助于选择合适的迁移方式, 避免数据丢失和业务中断。

登录 VMware vSphere Web Client 客户端, 进入虚拟机和模板视图, 导出虚拟机相关配置信息。对于有快照回滚、配置 SR - IOV 直通类型网卡、磁盘为 RDM 类型或者虚拟磁盘为独立模式、挂载外置存储 LUN 卷的虚拟机, 不能通过 VMware 纳管方式迁移, 建议采用 SCMT 有代理方式迁移。

(3)其他信息 (HA&DRS配置、存储信息、集群网络信息和操作系统信息等) 目标:全面了解平台的高级配置、存储架构、网络拓扑和操作系统环境, 确保迁移过程中这些关键组件的兼容性和正常运行。

重点关注点:这些信息对于构建稳定、可靠的新平台至关重要。例如, 存储信息的收集有助于规划新平台的存储策略, 确保数据的高效存储和访问;操作系统信息的收集则可以提前解决兼容性问题, 保障业务系统在新平台上的顺利运行。

HA&DRS配置:查看群集 HA 策略, 已启用 DRS, 策略为全自动, 迁移至 HCI 后将启用 HA 机制和 DRS 全自动。

存储信息收集:登录 VMware vSphere Web Client 控制台, 点击集群名称, 进入 [管理] - 数据存储, 导出存储相关信息, 包括总容量、可用容量、类型等。

集群网络信息收集:登录 VMware vSphere Web Client, 选择主机后, 点击 [管理 / 网络] 进入网络选项卡, 统计网络信息, 包括 VLAN、IP 地址段等, 用于创建超融合物理出口 - 端口组。

统计好 VXLAN 信息后, 用于创建超融合物理出口-端口组。

操作系统信息收集:收集学校在用操作系统版本, 用于确认 SCMT agent 兼容性。部分虚拟机使用的 X64 Openeuler22.03 内核 5.10、UOSv20 内核 4.19.0 - 91.82.112.uelc20.x86 64 不在 SCMT 有代理迁移插件兼容性列表里, 需使用 VMware 纳管迁移或者 ISO 迁移。

()迁移方案设计

1.目标

根据信息收集的结果, 制定科学合理、切实可行的迁移方案, 确保业务系统能够平稳、高效地从 VMware 平台迁移到新平台。

充分考虑业务的复杂性和多样性, 通过合理的规划和设计, 降低迁移过程中的风险, 保障业务的连续性和数据的安全性。

2.重点关注

科学合理的迁移方案能够提高迁移效率, 减少业务停机时间, 降低对学校教学、科研和管理工作的影响。

通过严谨的方案设计, 可以有效避免因迁移过程中的错误操作或不合理规划导致的业务中断和数据丢失, 保障学校信息化系统的稳定运行。

3.严谨细致的方案设计过程

(1)原则遵循目标:确保迁移工作按照既定的规则和顺序进行, 避免混乱和无序操作, 降低迁移风险。

重点关注点:遵循先易后难、先常规业务后核心业务的原则, 可以在迁移过程中逐步积累经验, 及时发现和解决问题, 避免因核心业务迁移失败导致的重大影响。例如, 先迁移简单的业务系统可以测试迁移流程和工具的有效性, 为核心业务迁移提供参考和保障。

(2) 方式确认目标:根据不同业务系统的特点和需求, 选择最合适的迁移方式, 确保迁移过程的高效和稳定。

重点关注点:不同的业务系统可能具有不同的硬件、软件和网络配置, 选择合适的迁移方式可以提高迁移成功率, 减少数据丢失和业务中断的风险。例如, 对于对停机时间要求较高的业务系统, 可以选择对业务影响较小的迁移方式, 如 SCMT 热备迁移模式, 以保障业务的连续性。

(3) 耗时预估目标:准确预估虚拟机迁移所需的时间, 合理安排迁移计划, 确保迁移工作按时完成。

重点关注点:合理的时间规划有助于协调学校各部门的工作, 避免因迁移时间过长影响学校的正常教学、科研和管理工作。同时, 准确的耗时预估也可以提前发现可能存在的问题, 如资源不足或网络带宽限制等, 及时采取措施加以解决。

(4) 全面考虑 (端口连通性和兼容性检查) 目标:确保新平台与 VMware 平台之间的端口连通性和系统兼容性, 保障迁移过程中数据的正常传输和系统的稳定运行。

重点关注点:端口连通性和兼容性是迁移成功的关键因素之一。通过提前检查和解决这些问题, 可以避免因网络连接问题或系统不兼容导致的迁移失败, 提高迁移的成功率和效率。

与用户分工界面:

()迁移中

1.重点关注项

严格的测试和监控可以提前发现系统的潜在问题和风险点, 及时采取措施加以解决, 避免在迁移完成后出现业务中断和数据丢失等严重问题。

对核心应用和其他应用的成功迁移是整个迁移项目的关键环节, 直接关系到学校教学、科研和管理工作的正常进行。通过精心组织和实施迁移过程, 可以保障业务系统在新平台上的稳定运行, 为学校的信息化建设提供有力支持。

2.全面保障的迁移过程

(1)严格测试性能测试:评估平台在各种故障情况下的性能表现, 确保系统在面临硬件故障、网络故障等异常情况时仍能正常运行。

重点关注点:通过性能测试, 可以提前发现系统的性能瓶颈和潜在风险点, 及时优化系统配置, 提高系统的可靠性和稳定性。例如, 在单网口故障、单交换机故障等情况下的测试结果, 可以为网络架构的优化提供依据, 保障业务系统在复杂网络环境下的正常运行。

性能测试结果:(NVMe SSD 全闪池+Turbo+RDMA 集群性能)

(2)可靠性测试:验证系统在硬件组件故障 (如磁盘拔盘、电源故障等) 情况下的容错能力和恢复能力, 确保系统具有足够的可靠性。

重点关注点:可靠性测试可以保障系统在面对硬件故障时能够快速恢复, 减少业务中断时间。

(3)核心应用迁移:确保学校核心业务系统 (如智慧校园 E - campus) 能够顺利迁移到新平台, 保障核心业务的连续性和稳定性。

重点关注点:

对于大型应用群, 需根据应用特点区分为单体应用、集群类应用和数据库类应用, 梳理应用架构图, 理清应用脉络。

Memcached 无法进行持久化, 数据不能备份, 只能用于缓存使用, 且重启后数据全部丢失, 因此 Memcached 虚拟机迁移后, 数据需要重新缓存, 性能有一个爬坡阶段。

数据库类业务迁移完成后进行数据完整性验证和业务可用性时, 可以通过分布式防火墙添加 ACL 规则, 仅允许测试终端访问, 验证数据无误、业务可用性后再全部开放, 避免未充分验证时有其他终端的新增数据写入, 导致无法回退。

(4)其他应用迁移:将其他非核心业务应用系统 (如 XGC - ihome k8s 容器云平台) 迁移到新平台, 实现学校信息化系统的全面迁移。

重点关注点:其他应用系统虽然不是核心业务, 但也是学校信息化建设的重要组成部分。其成功迁移可以保障学校整体信息化系统的完整性和一致性, 提高学校信息化管理的效率和水平。

()迁移后

业务切换协调有序:协调停机时间进行业务切换, 源机断开网络, 目标机拉起, 确保了业务的连续性和稳定性。

业务验证严格细致:业务部门人员对业务应用的各项关键功能进行了可用性验证, 同时对数据迁移前后进行了交叉验证, 确保了业务的完整性和数据的准确性。

四、保障业务平稳运行

在业务迁移后, 为保障用户业务的持续稳定运行, 深信服采取了一系列重要动作, 主要包括智能监控与告警以及定期巡检, 具体如下:

()智能监控与告警监控机制

1.构建快速感知风险的监控体系:联动云端智能大脑, 对学校云平台实现 7*24 小时不间断的监控和告警。这一机制能够及时捕捉到平台运行过程中的各种异常情况, 为风险预测和预防性处置提供了坚实的数据支持。

2.问题发现与处理内存不足问题:通过云端智能大脑的精准分析, 及时发现了 centos7-Ecampus-DBexchangeServer 等核心数据库虚拟机内存不足以及 MongoDB 内存不足的问题。

优化措施:针对这些问题, 迅速采取增加内存的措施来优化系统运行, 有效解决了内存不足对业务的潜在威胁, 确保了虚拟机的稳定运行, 为业务的正常开展提供了有力保障。

3.意义与价值:智能监控与告警系统的有效运行, 能够及时分析预测风险点, 提前采取预防性处置措施, 避免了风险的升级, 从而保障了业务的稳定运行。这不仅提高了系统的可靠性和稳定性, 还为用户节省了因业务中断而带来的巨大损失, 提升了用户对平台的信任度。

()定期巡检

1.主动服务准备:提前了解历史问题, 覆盖中基层并争取与高层沟通汇报, 了解不同层级关注点, 为个性化服务奠定基础。

2.产品运行诊断:传递服务理念, 了解使用情况, 采用工具与 checklist 点检设备, 处置问题与优化项, 保障业务最佳状态。

3.差距分析与建议:解读诊断结果, 提供深化建议、培训与汇报, 强化用户价值感知, 助力解决问题提升业务。

4.主动服务收尾:及时实物反馈, 处置遗留问题, 确保用户感知服务水平, 提升满意度。

5.目的与意义:检查风险与差距, 维持业务良好状态;识别短板与需求, 获认可提升满意度;提供技术方案, 利于业务发展承载。

五、替换总结

某 211 高校的 VMware 迁移项目取得了显著的成果, 为学校的发展带来了新的机遇和可能性。同时, 也为其他高校的信息化建设提供了宝贵的经验和借鉴。

借助云平台升级的契机, 学校实现了业务的全面转型与升级, 有力地推动了教学、科研和管理工作的信息化进程。在此过程中, 安全可靠的云平台得以构建, 为学校的信息资产和师生的个人信息安全筑牢了防线, 为学校的可持续发展奠定了坚实基础, 也为教学改革和科研创新注入了新的动力。

具体价值体现:

1.价值业务平稳迁移

学校业务顺利完成了从 VMware 平台到深信服超融合平台的迁移, 核心业务更是迁移至全闪资源池, 这一举措显著提升了业务的性能。使得学校的各项业务能够更加稳定、高效地运行, 为教学和科研工作提供了更强大、更可靠的支撑。

2.网络可视化

通过运用网络可视化工具 (aNI,Advanced Network Insight), 学校各二级学院、科室的虚拟机访问关系得以实现自动采集和梳理。这不仅提供了详细的访问关系拓扑图和访问详情, 还为优化网络策略配置提供了有力依据, 有助于及时发现业务访问过程中的潜在风险, 有效减少了风险端口的暴露, 为网络安全提供了更有效的保障。

3.业务实现高可用

迁移至深信服超融合平台后, 凭借 SCP 云平台集成的异地容灾功能, 无需安装第三方软件和插件, 即可轻松获取容灾功能。核心业务基于 aDR 实现了同架构数据中心级别容灾, 这意味着在面对突发情况时, 业务能够迅速恢复, 为学校的业务连续性提供了坚实的保障, 确保学校正常运营不受影响。

六、用户价值

本次 VMware 迁移项目得到了用户的广泛好评。与 VMware 平台相比, 深信服云平台在功能、性能、可靠性和日常运维便捷性等方面都展现出了明显的优势。其丰富的功能、高效的资源调度和全面的安全防护, 特别是分布式防火墙的灵活应用, 极大提升了工作效率。同时, 深信服云平台运行更稳定、流畅, 系统响应迅速, 能快速恢复业务。迁移团队提供的全面保障措施, 包括数据备份、系统测试和故障排查, 为学校提供了专业、高效和可靠的服务, 也为学校的信息化建设注入了新活力。

来源:互联网

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。