26
倒计时:
展会动态你的位置:主页 > 展会动态 >NVIDIA 软件可选服务支持数据中心集群管理
这项可选服务将帮助数据中心运营商监测整个AI GPU集群运行状况,从而最大限度地延长正常运行时间。


随着AI基础设施的规模和复杂性不断增加,数据中心运营商需要持续了解性能、温度和功耗等因素。这些洞察使数据中心运营商能够主动监测和调整大规模分布式系统中的数据中心配置,从而确保这些系统以最高效率和可靠性运行。

NVIDIA正在开发用于可视化和监测NVIDIA GPU集群的软件解决方案,为云合作伙伴和企业提供洞察仪表板,帮助他们提高整个计算基础设施的GPU正常运行时间。
该服务由客户选择、自行安装和控制,用于监测GPU使用情况、配置和错误。它将包含一个开源客户端软件智能体,这是NVIDIA持续支持开放、透明软件的一部分,旨在帮助客户最大限度的发挥其GPU系统的性能。
通过这项服务,数据中心运营商将能够:
追踪功耗峰值,在不超出能耗预算的前提下最大化单位功耗性能。
监测整个集群的利用率、内存带宽和互连运行状况。
及早发现热点和气流问题,以避免过热降频和组件过早老化。
确认软件配置和设置一致,以确保结果可复现以及运行可靠。
发现错误和异常情况,及早发现故障部件。
这些功能可以帮助企业和云提供商可视化其GPU集群、解决系统瓶颈并优化生产力,从而提高投资回报。

此可选服务提供实时监测,让每个GPU系统与外部云服务通信和共享GPU指标。NVIDIA GPU没有硬件跟踪技术、终止开关和后门。


*版权声明:本文为转载中国日报中文网的作者发布,转载目的在于传递更多信息,不代表本网站立场。如有侵权或其他问题,请及时联系我们删除。


上一篇:工信部:加快大数据等在“工业互联网+安全生产”领域的应用 下一篇:企业AI算力需求狂奔:62%计划加预算,小模型微调成主流