
11万卡组网+36小时上线:scaleFabric的速度与激情场外股票配资网
在最近大家都在关注的中科曙光新发布的高速网络系统scaleFabric,有两个数字让我印象特别深:11万和36。这两个数字,都和scaleFabric直接相关。
11万,是scaleFabric架构的最大组网规模。3万卡只是郑州这一个节点的规模,这套架构理论上能支撑11万卡互联。什么概念?NVIDIA的InfiniBand上限是5万卡,scaleFabric直接翻倍还多。这意味着更大规模的模型并行、更短的训练周期、更大的想象空间。当别人还在研究怎么把几万卡连起来的时候,scaleFabric已经在考虑十万卡级的网络拓扑了。
36,是郑州万卡集群从部署到上线的时间——36小时。你没有看错,不是36天,是36小时。以前搞一套千卡集群,光调网络就得一周起步,万卡集群更是按月算。scaleFabric怎么做到的?答案是SuperTunnel的自适应能力。传统方案每换一个模型,网络参数就得跟着调一遍,遇到问题翻文档、查社区、发工单。SuperTunnel开箱即用,自动识别通信模式,自动优化调度,把几个月的工作压缩到一天半。
负责数据中心的架构师说了一句话,我也印象深刻,他说:我们现在做的事,不是复制NV的路线,而是用不同的方法达到相似的终点。路不一样,不代表走不到。scaleFabric就是那条不一样的路。
这条路上场外股票配资网,已经有了扎实的脚印,国产要支棱起来了!!!
虹客配资提示:文章来自网络,不代表本站观点。