2022年06期 v.43 34-40页
罗荣 胡文庆
(广东人工智能与先进计算研究院,广东 广州 510506)
摘要:针对人工智能计算单元或加速卡需要稳定可靠的工作电源以及实时高效的温度控制等需求,设计人工智能服务器的底板管理控制器系统,实现人工智能服务器的电源模块冗余管理、多路电源输出监测、机箱内部温度控制,并提供远程接口和设备管理能力。该系统采用ORing冗余电源设计,对每路输出电源进行电压、电流状态监测;结合人工智能服务器的内部温度信息,依据电压、电流历史趋势对其散热风扇实施转速控制,不仅实现了电源冷、热冗余备份和切换管理,还有效提高了服务器的散热水平。应用该系统的人工智能服务器“香雪-3B”(XIANGXUE-3B)运行稳定可靠,并在MLPerf V2.0测试中取得了较好的成绩。
关键词:人工智能服务器;底板管理控制器;冗余管理;散热管理
中图分类号:TP277 文献标识码:A 文章编号:1674-2605(2022)06-0006-07
DOI:10.3969/j.issn.1674-2605.2022.06.006