首页 > 聚焦 > >正文

通信行业点评:算力调度:未来算力网络的重要拼图

来源:产业信息网2023-07-11 17:04:22

算力资源有限,调度优化问题紧迫。OpenAI 此前在技术博客《Scaling Kubernetes to2,500 nodes》中提到,OpenAI k8s 集群从500 nodes 扩展到2500 nodes 时遇到诸多存储、网络和资源初始化问题,通过可视化监控工具Datadog 发现ETCD(一种Key-Value 存储服务)写数据存在几百毫秒延迟,list API 被频繁调用、Fluentd 和DataDog 频繁侵占资源等问题。

什么是算力调度?在云计算中,资源调度是一个非确定性多项式优化问题,往往会出现“拆东墙补西墙”这样的情况,因此云计算的算力调度必须考虑每个算力资源请求的需求边界,比如OpenAI 团队使用“balloons”占位策略解决资源排队问题:

用一个低优先级pod 占着整个节点,要用节点的时候被自动驱逐掉;使用污点策略手动分配每个训练请求能使用的节点。


(资料图)

GPU 超算集群中,暴露出的不只是算力调度问题。在此前对英伟达AI 超算的研究中,我们的结论是:通信网络是制约数据中心算力高低的关键因素。在多线程并行计算下,通信成为制约算力的短板,只要有一条交换链路出现网络阻塞或丢包,就会产生I/O 延迟;又如GH200 新增显存互联功能,我们认为,相对于无显存互联的超算,GH200 对API server 的并发访问量是指数级增长,将对硬件资源调度提出更高挑战。

多点硬件部署监控效率更高。我们注意到,OpenAI 在针对网络监控进行优化时发现Prometheus 这类监控系统时常会导致OOM(Out of Memory,内存溢出),从而不得不削减查询频率;每次初始化pod,Prometheus 都要重写WAL(Write-aheadlogging,预写式日志)拉长启动时间。我们认为,以上问题都可以通过嵌入式的多点硬件层监控系统避免上述问题。我们认为,在传统的计算式和I/O 式云计算中,外部串接监控服务器即可满足监控需求,而GPU 集群时代,需要并接部署“联邦集群”并进行不同监控服务器的功能划分,最后进行北向汇聚,有望提升监控采集效率、降低超算本身的资源侵占。

网络可视化技术在国内外均处于探索迭代过程中,国内相关厂商的潜在机会巨大。

在北美,目前主流的监控工具是Netscout、Prometheus、Datadog 等,都是基于在超算本地化部署;但在多点硬件部署的AI 超算中,软硬件结合的厂商成长性有望更为充分,经过多年经验积累的相关国内DPI 厂商,形成了高容量下的数据监控能力,有望成为全球算力调优的上游关键角色。

投资建议:

1)重视GPU 超算集群中交换网络性能的重要性,而光通信是现有技术下几乎无法替代的交换网络方案,关注光通信:中际旭创、新易盛、天孚通信、太辰光、腾景科技、德科立、联特科技、华工科技、源杰科技、剑桥科技;算力设备:中兴通讯、紫光股份、锐捷网络、菲菱科思、恒为科技、工业富联、寒武纪、震有科技。

2)重视网络可视化及算力资源调优策略的软硬件厂商,该品种目前存在较大预期差,关注恒为科技、浩瀚深度、中新赛克。

风险提示:AI 发展不及预期,算力需求不及预期。

知前沿,问智研。智研咨询是中国一流产业咨询机构,十数年持续深耕产业研究领域,提供深度产业研究报告、商业计划书、可行性研究报告及定制服务等一站式产业咨询服务。专业的角度、品质化的服务、敏锐的市场洞察力,专注于提供完善的产业解决方案,为您的投资决策赋能。

转自国盛证券有限责任公司 研究员:宋嘉吉/黄瀚/赵丕业/邵帅

标签:

下一篇: 最后一页
上一篇: 四维图新:公司目前基于视觉图像源的地图数据更新技术已应用至全国范围地图更新中,自有采集比重已大大缩小,能够实现天级/小时级的数据要素的更新和发布