NEWS

NVIDIA嵌入式解决方案架构师Jeff:NVIDIA 全新Jetson AGX Orin产品介绍

2021-12-08 source:米文动力

大家好,我是NVIDIA嵌入式解决方案架构师李蒙,今天跟大家分享的内容是关于Jetson AGX Orin和Orin NX的相关介绍。

 

今天的内容主要分成两部分,第一部分介绍Jetson AGX Orin产品系列的Roadmap,以及它的产品设计优势,第二部分介绍Jetson AGX Orin 和Orin NX 的Spec。


01、Jetson AGX Orin产品系列Roadmap

【NVIDIA Jeff】JETSON_ORIN_INTRODUCE_03.pngimage.png

上图是Jetson AGX Orin的Roadmap,左侧绿色部分是已经在市面上销售、量产的产品模组,包括NANO、TX2 NX、Xavier NX和AGX Xavier。NVIDIA明年会有两款Orin产品发布,明年Q1 季度发布AGX Orin, Q4季度发布Orin NX,这两款产品的周期都是5年,2023年会有NANO的Orin产品发布, 这是Roadmap的大致时间节点。

【NVIDIA Jeff】JETSON_ORIN_INTRODUCE_04.png


目前已经在市面上销售的工规模组,有两款大家可能比较熟悉,一个是TX2i,另一个AGX Xavier Industrial。AGX Orin也会有工规产品发布,预计发布时间是2023年。

【NVIDIA Jeff】JETSON_ORIN_INTRODUCE_05.png

AGX Orin发布以后,软件也会配套升级,目前JetPack刷机软件的版本是4.6,这是现在已经发布的版本,到今年年底的时候,会发布一个小版本4.6.1,主要是SDK的小幅升级和Bug Fix方面的发布。目前4.6.1支持Jetson全系产品,支持Orin的JetPack版本是5.0,这个版本明年跟AGX Orin一起发布。


JetPack 5.0版本,对模组的支持是从Xavier系列起步,早于Xavier系列的就不再支持了,像TX2、NANO在5.0版本里面就不会再支持了,全系列的早期版本支持,最后一个版本就是4.6.1,这是JetPack的Roadmap情况,正式量产版会再稍微晚一点,可能会在明年年中左右。

【NVIDIA Jeff】JETSON_ORIN_INTRODUCE_06.png


JetPack 5.0与现在的4.6版本相比,有两个比较大的区别,一个是Kernel版本的升级,现在4.6的 Kernel版本是4.9,到了JetPack 5.0以后,Kernel会升级到5.X,可能是5.1,也可能是其他小版本,总之是5.0以上的版本。另一个是操作系统会升级到Ubuntu 20.04,不再是现在的18.04版本,这是两个比较大的一个变化,是最关键的两点。


刚才简单介绍了 AGX Orin Roadmap大概的规划,这里简单总结一下,对于现在的AGX Orin来说,它的产品定位是自主机器,比如物流车、无人机、相对比较复杂的大型机器人等,也包括跟今天主题相关的如V2X、RSU、OBU或者辅助驾驶,这些场景都是比较适用的。

 

在软件开发方面,主要有两个应用方向,一个是多个Pipeline的并发使用,当算力增强以后,一个盒子可以跑多个不同的完全独立的任务,所以在算力足够高的时候,AGX Orin是比较适合在这样的场景下去使用的。


另一个是相对大型复杂的模型也比较适合在AGX Orin 上跑,大家都知道,V2X、辅助驾驶和机器人里面一般都是多Sensor融合,可能会有雷达、超声波、毫米波、惯导和多个Camera等各种各样类型的传感器接入,这些传感器接入进来,特别是雷达数据,这是数量非常庞大的一些数据,这些数据进到模组里面,对模组的处理能力提出了很高的考验。所以这种多Sensor融合能力需要非常强的算力, Jetson AGX Orin相较于上一代的AGX Xavier,算力有了大幅提升,非常适合在这样的场景下去做相关的解决方案。

【NVIDIA Jeff】JETSON_ORIN_INTRODUCE_07.png

这里列了一个例子,是关于 AGX Orin的主要特点,包括外观尺寸、性能、IO特点、功耗、管脚的兼容性(兼容上一代的 AGX Xavier)。现在大家还拿不到Jetson AGX Orin 的模组或者开发套件,无法去做评估和验证,而AGX Orin和AGX Xavier管脚是兼容的,pin to pin都是699管脚,这样意味着大家做验证,可以基于目前AGX Xavier去做,只是算力有一定的差异。

 

做完开发以后,等未来拿到Orin模组或者Orin开发套件,做少量的调整就可以平滑的把软件相关部分迁移过来,对产品开发来说这是个无缝迁移过程,这是Jetson AGX Orin一个简单的优势总结。


02、Jetson AGX Orin产品系列Spec


下面来看一下Jetson AGX Orin的Spec,图中上面的是Jetson AGX Orin和 Jetson Orin NX,下面的是市面上已经在使用的Jetson AGX Xavier和 Jetson Xavier NX,可以看到对于相同的来说,比如AGX Orin和AGX Xavier,首先是算力有6倍的提升,从32T升级到了200T,同时功耗没有明显的增长,模组功耗 AGX Orin是50瓦,AGX Xavier是40瓦,外观尺寸都是100mm×87mm,跟明信片差不多(或者稍微大一点),明年Q1会发布。

【NVIDIA Jeff】JETSON_ORIN_INTRODUCE_09.png

 Orin NX算力是100T,相比之前的Xavier NX 21T ,有5倍左右的提升,功耗也控制的比较低,Orin NX模组典型功耗是25瓦,Xavier NX 是20瓦,外观尺寸也是一样的(45mm×70mm),这是Orin大概的简介,现在大家可能会有比较直观的一个印象。


目前,AGX Orin在NVDIAI下载中心已经有部分资料可以下载了,下图是AGX Orin模组的结构图,带颜色的部分(粉色和红色)代表跟 AGX Xavier的差异,粉色代表是数量上有一定的差异,但二者都具备该部分;红色部分代表只有AGX Orin有,AGX Xavier没有;黑色部分代表是二者是一致的。

 

【NVIDIA Jeff】JETSON_ORIN_INTRODUCE_10.png

首先来看AGX Orin新增的部分,一个是Secure NOR,多一块Flash做保存,这样安全性可以得到进一步保障,另一个是增加了4路万兆网口,在很多场景下需要通过这种网口来接入设备,比如V2X的端侧、路侧设备很多都要外接网线,有万兆网口,带宽会有大的提升,低延时实时性会更高,数据传输会压力也会更小。


粉色部分代表数量上有一定的差异,或多或少,以PCIe举例,AGX Orin PCIe是22个lane,相比AGX Xavier 的16个Lane是有所增加的,其他的就不一一介绍了。


下图是具体参数上的差异,左侧是AGX Xavier,右侧是AGX Orin。

【NVIDIA Jeff】JETSON_ORIN_INTRODUCE_11.png

首先从GPU的架构来看,AGX Xavier是Volta架构,AGX Orin升级到了Ampere架构(跟N100是相同的架构),另外CUDA数量有了4倍的提升,从512增长到了2048,Tensor Core保持不变,但是Tensor Core是Ampere的三代,所以性能会更加强劲。

 

在CPU方面, 从AGX Xavier 8核的Carmel Arm架构变成了12核的Cortex A78,它的整体性能是高于Carmel Arm CPU。


在DLA方面,AGX Orin还是2核DLA,但算力有了大幅增长,从5.7T变到了48.5T。


同时IO接口也有明显升级,从DDR4升级到DDR5,带宽有接近1.5倍增长,在AGX Orin架构下面, DDR5点读写速度是204GB/s。

 

另外前面提到的4个万兆网口,通过网口传递数据带宽会有明显的提升,可以接更多的外设去读取,所以无论是接外设,还是跟云端的数据做交互,使用AGX Orin都是比较便捷的。


在编解码方面,模组要考虑综合平衡,所以这里面稍微提一下,在解码方面AGX Orin是略有降低。举个例子,比如H.264  AGX Xavier是4路4K60,AGX Orin是1路4K60,H.265 AGX Xavier是 2路8K30,AGX Orin是1路8K30,这里涉及性能提升和功耗的一个整体的平衡,中间需要有取舍,大家在做判断的时候相关的Spec要仔细看一下。

 

在Camera方面,AGX Orin跟AGX Xavier保持一致,还是16个lane,但是如果使用C-PHY芯片,那么带宽会提升两倍多。

【NVIDIA Jeff】JETSON_ORIN_INTRODUCE_13.png

这里主要关注一下PCIe,从16个Lane升级到20个Lane以后,可以看到它的组合更多、更丰富了。比如之前是8个Lane,只能有一路8个Lane,现在可以构建两路8个Lane或一路8 Lane再加上两路4个Lane,所以整体来说PCIe的组合方式更多了,选择性也更加丰富。

 

此外,包括显示和Audio部分,接口也更丰富了,所以大家在实验当中,可以根据需要去做适当的扩展,当然比较关键的还是4路万兆网口的升级,做外设扩展会更加的方便。

【NVIDIA Jeff】JETSON_ORIN_INTRODUCE_14.png

上面是算力提升对比图,对比的是AGX Orin和AGX Xavier,首先来看推理能力,整体推理能力从32T变到了200T,有6倍左右的提升,其次在深度学习相关的模型推理当中也有比较大幅的增长,当然需要强调一下,200T需要的推理模型是结构稀疏化的模型,TensorRT检测到模型是稀疏化模型的话,可以进一步的提升推理能力。

 

CUDA  Core算力提升3倍左右(纯CUDA开发),CUDA 核有4倍的数量提升,DLA总算力从11T提升到了97T, CPU的性能提升1.7倍左右,从8核Carmel Arm提升到12核的Cortex A78,DRAM带宽也有1.5倍的提升。

【NVIDIA Jeff】JETSON_ORIN_INTRODUCE_15.png

这里简单介绍一下Ampere的架构, Jetson作为嵌入式模组,虽然是GPU,不像数据中心显卡是个独立的,但是它的GPU结构大家可以看一下,跟市面上Ampere显卡的物理结构是一样的,是从GPC、TPC再到SM的物理结构,最底层是SM,一个TPC包含了2个SM,整体是有16个SM做相关的硬件加速,物理结构保持跟显卡一致,并没有做其他改变,只是在数量上面是有所缩减。

【NVIDIA Jeff】JETSON_ORIN_INTRODUCE_16.png

下面来看一下AGX Orin Tensor Core的主要特点,首先Tensor Core支持的数据类型更加丰富,新增了TF32、BF16这两种数据类型,当然也支持之前的FP16、INT8这些类型。

 

其次是会支持结构稀疏化模型的推理加速,在模型做训练的时候要确保是结构稀疏化的模型,所谓结构系数化就是它的weights按照一定的比例去置零,置零以后它就不参与运算了,所以对推理会有比较大幅的提升。

 

此外,就是训练完导入到Jetson以后,Tensor Core要能够认识它,在第三代Tensor Core里面,是可以识别到这样的一个稀疏化的模型结构,从而在推理的时候启用相关的硬件加速引擎,进一步提升推理的速度,这是对结构稀疏化的支持。

 

另外就对数据压缩支持,这部分主要是对于L2 Cache读写能力的增强,通过基于数据压缩的技术,带宽和读写分别有4倍和2倍的改进。基于这样的硬件优化,整体的推理能力相对之前的AGX Xavier有比较大幅提升。


下面来看看新增结构数据类型的特点,这个对比图比较直观。

【NVIDIA Jeff】JETSON_ORIN_INTRODUCE_17.png

首先FP32由两部分构成,一个是范围,另一个是精度,其中8位是作为范围表示,后面23位是作为精度表示。

 

下面对应的TF32,8位跟FP32一样,都是表示范围,精度有所降低,从23位变到10位,变到10位以后,会减少数据传输压力,同时数据表达的范围并没有降低,只是在精度上略有损失,在做模型训练的时候,因为深度学习模型本身就对噪声或者数据变化有一定的适应能力,所以对精度的损失模型本身也有一定的适应能力。

 

经过我们测试,基于TF32这样的精度做训练,很多模型里能够保持精度,同样的BF16也是一样的,范围没有变化,但精度范围进一步缩小变成7位,但目的是一样的,就是为了能够让大家在数值范围不变前提下,精度适当的缩减,这样的话提升计算速度,增加吞吐。

在训练的时候利用混合精度,是把不同的精度都使用上,对于模型最终训练很多测试表明,整体模型精度并没有下降,或者是略有降低。

【NVIDIA Jeff】JETSON_ORIN_INTRODUCE_19.png

目前NVIDIA官网也发布了Orin NX模组的相关信息,具体发布时间是明年的Q4季度,从上图可以看到Orin NX的管脚跟AGX Xavier是兼容的,都是用金手指的连接方式,管脚pin to pin,265管脚的连接方式。

【NVIDIA Jeff】JETSON_ORIN_INTRODUCE_20.png

当然现在Orin NX的Spec Release还比较少,但核心的已经可以看到了,一个就是算力,最高算力是100T(INT8),GPU相对于AGX Orin是各自缩减了一半,是1024个CUDA Core和32个 Tensor Cores,CPU是8核Cortex A78,核数稍微降低了点,DLA还是一样,2路DLA,Memory是12G的Memory,AGX Orin是32G,当然比现在8G还是多了些。

 

另外,存储需要外置NVMe,Orin NX没有内置eMMC,有需要就去扩展,功耗是10瓦到25瓦,比现在的的典型功耗20瓦稍微高点,外观尺寸是一样大,管脚是260 pin双联直插的连接方式,

 

目前关于Orin NX的介绍还比较少,未来随着产品发布时间节点的临近,更多Spec会进一步Release给大家。


我的分享到此结束,感谢大家的收听!