中国澳门ICT公司面向大型企业和公共机构提供端到端AI落地服务。今年以来,“AI 赋能未来”概念升温,中国澳门各行业争相尝试模型微调与垂直AI场景,但因本地AI算力资源稀缺且昂贵、资源分配效率低、以及数据隐私与安全隔离困难等问题,面临“用得上、排不上”的算力瓶颈:一台多卡A100 GPU服务器售价昂贵,难以批量部署,用户只能裸机排队,周期冲突;不同模型对GPU数量、内存、显存需求各异,资源配置效率低;同机训练又带来数据隐私隔离难题。
因此,该公司在其两台A100 GPU服务器上部署云轴科技ZStack Cloud云平台,将物理GPU虚拟化成多个独立算力单元,实现统一调度与多租户隔离,真正做到“一台服务器,多方复用”,帮助用户并行、安全地开展AI模型训练研究。
建设方案
中国澳门ICT公司把ZStack Cloud云平台部署在两台搭载了多卡A100 GPU服务器上,通过对GPU算力虚拟化、计算资源池化、本地存储整合,构建高效、灵活、安全的AI云基础设施平台。整体架构包括:
物理资源层:通过ZStack Cloud云平台的vGPU调度能力,将物理GPU按需划分为多个虚拟GPU实例,支持显存与算力的弹性分配。同时针对高性能需求场景,支持整卡直通模式(Pass-through),满足差异化算力需求,避免“重型任务挤占资源”问题,多用户可共享AI服务器,提高GPU利用率。
虚拟化层:通过ZStack Cloud云平台完成GPU资源透传以及通用计算资源CPU、内存虚拟化分配。
存储层:使用高性能磁盘资源包括本地NVMe SSD(LocalStorage)与光纤通道存储网络(FC-SAN),满足AI训练对IO吞吐的要求。
安全隔离:通过ZStack Cloud云平台的租户隔离机制,实现不同用户的AI环境隔离部署,保证AI模型训练过程数据不外泄、资源不冲突、权限不混乱。
管理统一:ZStack Cloud云平台集中管理GPU资源与用户权限,避免资源冲突。
客户收益
AI资源效率提升3倍,多部门研究并行开展:
GPU资源利用率提升超200%:同一台物理GPU服务器可同时支撑多个用户进行AI模型训练,解决排队瓶颈;
部署周期缩短50%:用户无需等待资源排期,快速启动AI应用实验;
隐私与安全性提升:平台虚拟机级隔离机制保障各部门数据私密性,支持独立网络与用户权限配置;
TCO优化显著:在不新增硬件投入的前提下,实现AI算力多用户共享,为客户节省千万级GPU服务器采购预算。
该项目的顺利上线,为本地AI开发与研究提供了高性价比、高弹性、高隔离的技术基础,也验证了ZStack Cloud云平台在AI虚拟化落地场景的强适配能力。未来,ZStack将持续携手本地合作伙伴,构建更加普惠、敏捷、安全的AI基础设施平台,为中国澳门AI生态的发展注入云端动力。

沪公网安备 31011202014879号