领先的Kubernetes 运营平台提供商 Rafay Systems宣布通过添加强大的新指标和仪表板,扩展业界唯一的大规模运行 Kubernetes 集群并支持 GPU 的交钥匙解决方案更深入地了解 GPU 运行状况和性能。
Rafay Kubernetes 操作平台 (KOP) 现在具有一个完全集成的 GPU 资源仪表板,可以可视化关键的 GPU 指标,因此开发人员和运营团队可以无缝地监控、操作和提高基于 GPU 的容器工作负载的性能——所有这些都来自一个统一的平台。
对于需要能够在云端和边缘/远程位置配置和操作支持 GPU 的 AI 和机器学习应用程序的企业来说,Kubernetes 已迅速成为首选的编排层。
根据 2022 年 Gartner®新兴技术:边缘技术提供强大的机会领域 — 采用者调查结果*,“投资和采用边缘技术的受访组织的主要目标是提高员工生产力 (41%) 和自动化业务流程 (39% ). 这与 Gartner 现有的研究(见新兴技术:Edge AI 中的用例模式)一致,即边缘 AI 被用于改进业务流程、提供自动化和生产力提升,从而转化为可衡量的投资回报率,例如节省成本。”*
然而,随着企业快速增加 AI 和机器学习工作负载的数量,解决可见性和监控等若干挑战有助于防止应用程序部署出现重大延迟,以及与集群中闲置或性能不佳的 GPU 相关的成本浪费。
例如,一家越来越依赖由人工智能驱动的实时视频检测应用程序的工厂需要一种标准化的方法,供跨职能团队管理 IT 基础设施和应用程序。以下挑战通常会导致运营脆弱性和缺乏可重复性,从而阻碍生产力:
对需要按需 GPU 指标来调整和优化 GPU 工作负载的开发人员和操作人员的访问和可见性存在缺陷或过度限制。
招聘或培训专家团队并花费数月时间开发、运营和维护定制的监控基础设施以收集和集中汇总 GPU 指标的斗争。
开发和维护与企业单点登录 (SSO) 系统的集成以提供对指标和仪表板的基于角色的访问的复杂性。
考虑由外部实体(例如,合作伙伴和 ISV)开发和维护的组织支持 GPU 的工作负载。这些实体还需要查看 GPU 指标,以确保工作负载以最佳状态运行。
Rafay KOP 通过为企业和受信任的外部实体提供零接触体验来解决这些挑战,以便为整个 Kubernetes 集群集群的 GPU 的关键操作指标自动和集中聚合。Rafay 的零信任访问服务与 SSO 集成实现了基于角色的无缝访问,以确保只有授权的开发人员、外部合作伙伴和运营人员才能从控制台获得对 GPU 指标的安全访问和可见性。
Rafay Systems 产品和解决方案高级副总裁Mohan Atreya解释说:“Rafay 使启动支持 GPU 的 Kubernetes 集群变得异常简单。只需几个步骤,企业的深度学习和推理项目就可以全面运作。” “我们不仅为人工智能和机器学习应用程序提供了支持环境的最快途径,而且 Rafay KOP 中的功能组合实现了可扩展的边缘/远程用例,支持零信任访问、策略管理、GPU 监控等由数千个集群组成的整个舰队。”
简化基于 GPU 的容器工作负载编排的新 GPU 资源仪表板已完全集成到 Rafay KOP 中,团队可以利用当今 SaaS 平台的许多其他优势,包括:
AI/ML 应用程序部署自动化: Rafay KOP 允许组织避免花费数月或数年时间开发自定义平台,而只是为了为裸机、虚拟化和云环境配置和管理支持 GPU 的 Kubernetes 集群。
AI/ML 集群和工作负载标准化和一致性: Rafay KOP 的集群蓝图对整个车队的集群和工作负载配置进行标准化和管理。企业可以检测、通知和/或阻止对 Kubernetes 集群的配置更改。