特斯拉Dojo超算最新细节大公开!涉及指令集结构、数据格式,还有系统网络

时间:2022-08-25       来源: IT之家       阅读量:19914   

感谢本站的朋友OC_Formula的线索传递!

特斯拉备受关注的Dojo超级计算指令集结构细节有史以来首次公开!而且还展示了Dojo的数据格式,系统网络和软件系统绕过死节点的能力。

关于特斯拉自主开发的人工智能芯片D1的更多细节也被披露听听特斯拉硬件工程师Emil Talpes是怎么说的

特斯拉道场超级计算机

特斯拉开发的超级计算机Dojo可以利用海量视频数据进行无人监督的标记和训练它拥有高度可扩展和完全灵活的分布式系统,可以训练神经网络,适应新的算法和应用

不仅如此,还可以从零开始构建一个大系统,而不是从现有的小系统演化而来每个Dojo ExaPod集成了120个训练模块,拥有3000个D1芯片,拥有超过100万个训练节点,计算能力为1.1EFLOP*

在微架构方面,每个Dojo节点都有一个内核,内核是一台成熟的计算机,有CPU专用内存和I/O接口。

这一点很重要,因为每个内核都可以独立处理,无需依赖共享缓存或寄存器文件每个内核都有一个1.25MB的SRAM,这是主存储器该SRAM可以以400 GB/秒的速度加载,以270 GB/秒的速度存储

该芯片有明确的指令将数据移入或移出Dojo超级计算机中其他内核的外部SRAM存储器。

SRAM中嵌入了一个列表解析器引擎,这样的引擎可以一起向其他节点发送信息,或者从其他节点获取信息,而不像其他CPU架构那样。

至于通信接口,每个节点都连接到2D网格,在节点边界每个周期有八个数据包而且每个节点都有独立的网络连接,可以和邻居节点无缝连接

至于Dojo的指令集,它支持64位标量指令和64B SIMD指令,可以处理从本地到远程内存的数据传输原语,并支持信号量和屏障约束。

特斯拉自研AI芯片新进展

数据格式对于AI非常重要,尤其是芯片支持的数据格式特斯拉使用Dojo超级计算机研究业界常见的芯片,如FP32,FP16和BFP16

FP32格式比AI训练应用的许多部分需要更多的精度和范围,IEEE指定的FP16格式没有覆盖神经网络中的所有处理层相反,Google Brain团队创建的Bfloat格式应用范围更广,但准确率较低

Tesla不仅提出了8位FP8格式用于更低精度和更高矢量处理,还提出了一套可配置的8位和16位格式Dojo超级计算机可以围绕尾数的精度滑动,以覆盖更广泛的范围和精度

特斯拉在给定时间内可以使用多达16种不同的矢量格式,但每个64B数据包必须属于同一类型。

特斯拉自主研发的D1芯片是Dojo ExaPod的核心由TSMC制造,采用7 nm制造工艺,拥有500亿个晶体管,芯片面积为645mm,小于英伟达的A100和AMD的Arcturus

每个芯片有354个Dojo处理节点和440MB静态随机存取存储器D1芯片经过测试后,封装在一个5×5的道场训练瓦片上

这些瓦片每边的带宽为4.5TB/s,每个模块都有一个散热能力为15kW的盖子,为40i/o减少了散热,也就是说每个芯片的散热能力接近600W W,瓦片还包括了全液冷和机械封装,类似于Cerebras推出的WES—2芯片的封装理念。

在演讲的最后,特斯拉工程师Emil Talpes表达了以下观点:

我们的最终目标是追求可伸缩性我们不再强调CPU中常见的几种机制,如一致性,虚拟内存和全局目录搜索因为只有当我们扩展到一个非常大的系统时,这些机制才能很好地随之扩展

相反,在整个网格中,我们依靠快速的分布式SRAM存储,可以获得更高阶的互连速度支持。

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。