阿里巴巴资深技术专家曹政:高性能网络驱动极致智能计算
我们看一下经过各种通信优化后,对应用性能的影响,比如拍立淘千万分类模型,相比传统50GTCP网络,我们提升了2.5倍的性能,BERT对通信更加敏感,剪刀差也更大,右图更直观地展示了通信优化对于计算资源利用率的效果,如果性能扩展性不好的话,3000多张GPU卡的算力只能发挥出1000多张,其它的算力都被通信消耗掉了,使用我们的通信优化后,相当于多发挥出了1800多张卡的算力。 强资源弹性也是依赖于高性能网络,包括软件池化和硬件池化,软件池化比较成熟,硬件池法还在工作之中。软件方法就是将本地的算子通过高性能网络转发到远程执行,有软件的介入,因此性能和框架侵入性上存在不足,而硬件池化会通过超低延迟网络,亚微秒级别的网络,把原来属于服务器内的资源拉远,实现对上层软件的透明,这对网络性能的挑战非常高。从这张性能评测图上可以看到,软件池化在CNN类应用下的表现还是不错的,性能基本上不会有太大的下降,但是对于其他一些通信敏感的场景存在不足,所以硬件池化是我们研发的方向。 未来对于高算力类应用,首当其冲的需求还是更快、更宽、更大规模的网络,其中包括400G的网络,Lossy RDMA等,其次是更智能的网络,需要网络提供更多的信息,让端侧更智能地选路,甚至一些计算要发生在网络之中。未来,网络和计算的关系将会更加紧密,因为模型和数据混合并行已经形成趋势,推理和训练混合部署正在发生,更大尺度的AI+Big data+HPC发生融合,这些都对绝对性能以及性能隔离提出更高的要求,大计算的发展依赖于更高性能的网络。 延伸阅读:
(编辑:孝感站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |