NEWS CENTER
大家好,我是NVIDIA嵌入式解决方案架构师Jeff,主要负责Jetson嵌入式解决方案方面的技术支持。今天跟大家分享的内容是关于X86向Jetson移植过程中需要注意的事项及相关内容的分享。
今天的内容大致分成5部分:
第一部分介绍Jetson的硬件结构和特点。
第二部分介绍Jetson的软件栈以及基于这些软件栈,如何更好的移植到X86。
第三部分介绍深度学习模型、算法模型的使用方法和注意事项。
第四部分介绍CUDA移植过程中需要注意的事项。
第五部分介绍性能分析需要使用的工具及使用方法。
01、Jetson的硬件结构和特点
首先,来看一下 Jetson在行业的使用情况。
从行业列表里(如下图),可以看到 Jetson目前在各行各业的使用还是比较广泛的,从左侧可以看到像一些自主机器,包括零售、智慧城市、农业、服务、物流等行业里面都有Jetson的身影,特别是在低功耗、便携移动的场景里,Jetson的使用非常广泛。此外, Jetson的开发者社区发展也非常迅速,使用的开发人员正在不断增加。
在这些应用场景里,可能会面临一个问题,就是用户并不是一开始就使用Jetson去做解决方案,也许是历史原因,也许是X86的解决方案已经落地使用了,但这些项目需要使用Jetson去做升级。
那如何更好、更快速的移植到Jetson,去完成硬件的升级换代呢?今天的内容就是围绕这个话题展开。
假设下图是我们的移植场景。一个自主机器,最初在X86的开发环境下,硬件架构是英特尔的CPU,有类似1070的独立显卡插在上面,完成GPU加速。
硬件结构方面,整体功耗在200W以上,因为独立显卡的功耗会相对大一些, CPU单独主板也会有一定的功耗,算力有28Tops,体积也会大一些,具体到这个 case大约有4000cm³,这是一个基于X86的解决方案。
如果要把这个方案移植到Jetson上面,情况会怎样?
目前,Jetson系列中算力比较强的是Jetson AGX Xavier,这款模组的功耗是30W,算力是32Tops,略高于上图X86的解决方案,最关键是它的体积比较小(仅600 cm³),功耗也有数量级的降低。
但是,Jetson的体积虽然减小了,算力没有降低,把之前的整个pipeline移植到Jetson AGX Xavier平台上,对于很小嵌入式来说,移植过来会比较复杂。
对自主的机器来说,可能面临着前端有Sensor融合、深度估计、定位规划、障碍物检测、通讯、人机交互的可视化展示、以及对整个机器的控制。
所以对于整个pipeline来说,如果想在 Jetson平台上有更好的运行效果,就需要更深入的了解相关硬件,各个环节尽量的用硬件去做加速,并用恰当的软件做软件的优化,这就是X86向Jetson移植的Case。
想在 Jetson AGX Xavier上面能够有更好的加速,就需要对 Jetson的硬件结构有比较清晰的了解。
以Jetson AGX Xavier为例,我们来看一下它的内部结构,Jetson AGX Xavier的主要处理器除了常规的CPU、 GPU外,还有硬件加速单元——加速DLA,它起到推理加速的作用,还有视觉加速引擎,这是个单独的硬件单元,可以对视觉算法进行加速,同时还可以通过VPI接口进行调用。
另外对于很多项目来说,视频编解码是非常重要的一环,而Jeston AGX Xavier有专用的视频编解码硬件来进行编解码的操作,大大减轻了CPU负担。pipeline移植过来后,只有充分使用到这些硬件加速单元,才有可能让整个pipeline有比较好的性能。
02、Jetson软件栈迁移分析
那如果要移植,Jetson的软件栈有哪些软件可以使用呢?
这是Jetson整体软件栈的结构图,可以看到底层是硬件,往上一层是CUDA统一的架构,做底层的硬件加速,再往上一层是TensorRT,做推理引擎加速,还有多媒体的接口,可以直接调用编解码、转码等专用加速硬件,还有VisionWorks包括OpenCV,基于这些视觉库来加速计算。
再往上一层提供了Pre-Training Model,可以帮助大家更快的去做移植开发。因为很多模型,如果单纯从X86移植过来,其实还有很多优化工作,我们提供预训模型以后,在这个优化框架下(目前叫TAO),可以更快的在Jetson进行部署。
再往上一层是两个 Framework级别的框架,一个是 DeepStream,另外一个是Isaac,更多可能会用DeepStream来快速搭建应用。
再来看一下整个刷机,如果是要完成SDK种类比较多的刷机,Jetson提供了Jetpack开发包,可以做快速的刷机,里面所有的SDK会直接部署到硬件上面,并且跟硬件适配,不会有环境上的问题。
对于最终的性能,我们也提供了Profiling工具,就是Nsight Systems这些,运行在host主机上面,一般是Linux、Ubuntu这样的系统,可以对Jetson的Program进行性能分析。
想做移植首先要对环境有所了解,这是Linux系统,我们管它叫L4T(Linux for Tegra),是Jetson版本的Linux系统,目前最新版本的Kernel是4.9,Ubuntu是18.04。明年年初会出推出5.0版本,到时候Ubuntu会升级到20.04,Kernel也会升级到5.0以上。
CPU方面,目前Jetson系列的CPU都是Arm架构,Xavier系列都是INT8。所以这其实是X86向Arm环境下去做移植的过程。
在了解了硬件和软件环境后,就可以来考虑对于这样的环境,做移植有哪些注意事项?
这里有个通用的移植总结(跟硬件没有太大关系),主要从两个方面来说:
一方面,假设开发项目是开源的,源码是完整的,只需在Arm环境下重新做一次编译就可以,这是最简单最直接的方法。
当然可能除了本身的代码之外,可能也会提供Arm Package,如果有这样的Package,那么可以选择源码安装,也可以直接选用Package包直接安装,这样速度是最快的。
如果没有提供Arm Package,那就只能是源码编译,源码编译除了是自己的代码外,在开发过程中可能会依赖第三方的库,依赖第三方的库的话,就需要注意看看有没有对应的源码编译,或者说有没有提供Arm Package安装,如果有的话就可以做源码编译,或者是下载Arm Package包去安装。
但如果源码没有,Package也没有,这样的依赖库就需要换掉,换成其他Arm版本对应的库,这是基于开源项目开发的一些注意事项。
另一方面,从编程角度来说,假设项目是以Java或者Python这种解释型语言作为开发的,这种移植起来问题不大,因为Jetson下面其实就是Ubuntu系统,它也支持Python或者Java这些解释性语言,直接移植过来就可以运行。
如果开发环境是基于C或者C++的,就需要把源码在Jetson硬件环境下做编译,可以直接在Jetson上编译,如果工程比较大比较耗时,可以选择交叉编译。这里我们提供了链接去适配Jetson版本,如果做交叉编译的话,可以用对应版本的交叉工具去做编译。
对于Jetson直接移植,有几个Program可以借鉴,第一个是基于DeepStream,这个应用非常典型(如下图),从RTSP到解码到预处理推理,再到后处理、显示等。
如果是在X86上移植,依赖的硬件加速主要是GPU,其他部分可能是在CPU上跑,当移植到Jetson之后,就要充分使用Jetson已有的硬件做加速。同时Jetson有对应的NVDEC做解码。
预处理方面,提供了VIC这样专用处理器,做缩放转码之类的硬件处理,可以加快这方面的速度,也减小CPU的负担。
推理方面,除了GPU之外,还有DLA可以辅助做推理,可以提高推理吞吐。
显示方面,有专门的显示接口作为硬件的加速。
可以看到在移植过程当中,从X86转到DeepStream去做升级,硬件加速还是比较方便,模型推理方面,需要基于 TensorRT去手动去做一些优化,使用GPU或者DLA等等,但整体来说使用DeepStream这样的硬件加速起来会比较方便。
当然,在实际开发当中DeepStream可能会稍微麻烦点,因为它的封装比较多,中间去控制某些环节可能不太容易,所以还提供另外一个接口供大家使用,就是Multimedia API,这个基于v4I2的开源框架,封装后提供了一些接口,可以直接调用硬件加速去做Program的开发,可以看到这里面的Sample很多,从解码到CUDA的使用,包括到底下完整的从解码到推理到TensorRT再到CUDA的计算都有完整的Sample code,基于这样的一个Multimedia开发起来会更加灵活,但是相对来说复杂度也更高一些。
这里是基于Multimedia开发的 Sample,可以看到这是一个多路IVA应用,从获取视频到解码到解码再到转码或缩放,通过VIC然后再做CUDA处理,然后再去做OpenGL显示。同时也可以一路做CUDA的处理,一路做TensorRT的处理,然后再把一些处理结果做叠加显示出来。
基于 Multimedia Framework,可以把CUDA、TensorRT和前面的解码、转码这些硬件加速串起来,这也是没有问题的。
另外,给大家介绍一个硬件加速接口——VPI,一个视觉编程接口。这个接口主要是为了方便大家更好的去调用硬件,包括GPU、CPU、PVA、VIC都可以去调用,使用起来类似OpenCV,同时它又集成了很多现成算法,无需自己再做开发,相关API比OpenCV效率还高。
目前VPI是个1.1版本,从这张图可以清晰的看到,基于VPI统一接口,可以调用不同的硬件完成不同的功能,使用起来还是比较方便的。
这是Benchmark测试的结果,分别是OpenCV CPU跟OpenCV GPU版本,可以看到整体来说有十几倍的加速,当然有个别还有待升级,但多数来说还是有比较大幅的一个提升,所以这也是大家从X86向Jetson移植过程当中可以选择的一条路径。
移植过程中还有一点想跟大家强调,可能有些用户说现在有些代码实现已经用OpenCV去做了,也不是特别复杂,但是现在想快速移植做验证,能不能不用那么复杂的DeepStream或者是Multimedia重新开发,做个简单的加速优化,可不可以?
这个也是没有问题的。
基于OpenCV 实现读取视频流的时候,其实CPU的解码过程效率是比较低的,所以OpenCV提供了一个调用gstream的接口,可以硬解码,其实内部就是调用 NVIDIA的gsteamer plugin做硬件加速,所以如果是基于OpenCV来做的,可以把解码这块作为硬件加速,对应整个pipeline性能会有一个提升。
03、深度学习模型在移植过程当中有什么注意事项?
在Jetson或者 NVIDIA其他板卡上去做移植,一般会用TensorRT模型加速,因为只有这样才能够充分使用GPU上的算力。但这样有个问题,比如之前X86上面的模型,是在一种数据中心上显卡训练模型,如果想在Jetson上使用,那么转TRT engine这个过程要在Jetson上重新做一遍,无论是在Xavier或是TX2,都得重新做一遍才可以,这是需要注意的。
另外一个模型加速的方法,就是可以利用迁移学习工具——TAO,这个框架主要完成的事情是,我们提供了很多预训练模型,这些模型可以利用TAO框架完成二次训练、裁剪,然后用TAO优化完之后,转成TAO的模型。
转成TAO模型之后就可以快速部署到 DeepStream上面了,这是无缝集成的。
训练出模型之后,可以直接在DeepStream上去做调用,DeepStream也会主动地转成一个Engine,第一次调用会生成Engine,第二次再用就直接可以调用Engine去跑了,所以整个这条框架就是已有模型的使用,到最后转到Jetson上做部署,整体来说速度会非常快。
因此,如果在实际项目当中,有些应用场景跟这些已有的预训练模型比较吻合,可以尝试使用TAO模型,这样也会让你迁移起来更加方便,因为本身这些模型也是做过大量的数据,网络结构也做过优化,非常适合快速做部署。所以在X86向Jetson移植过程当中,如果有模型迁移的困难,可以考虑基于这条路径来走一走试一试。
所有的这些工作都做完之后,还面临一个问题就是要做测试,看整个pipeline性能怎么样,有的时候会出现跑完后性能非常差。这时候首先要怀疑迁移过来的这个模型本身推理性能怎么样,这个推理就利用另外一个工具——Trtexec,这是TersonRT上面的工具,可以直接去生成一些数据测试模型的推理速度,看它跑起来效果如何。
最关键的还是模型推理时间,这个时间要提前看一下,如果转过来以后模型这块变得非常慢,整个pipeline就先不要考虑优化了,要先把这个模型的推理时间优化上去,所以这点是需要大家在移植过程当中首先要考虑的问题。
04、代码迁移中涉及CUDA 移植,有哪些注意事项?
那Jetson跟显卡的结构有什么不一样呢?
首先数据中心的GPU卡;显卡的CPU Memory跟GPU Memory是物理分离的,GPU显卡是通过PCIE插上去,这两块Memory是独立的,相互通过PCIE总线去数据传递,但Jetson不一样,Jetson是一个物理内存,一些在传统显卡上的方法,可能在Jetson这边会显得比较冗余,比如说来回的数据拷贝。
Jetson有三种Memory可以供大家使用,一种是的Page Memory分页内存,一种是Pin Memory固定内存,还有一个种是Unify Memory统一内存。
其中,Page Memory分页内存就是大家最常说的一种 Memory,但这个Memory不能直接在GPU Device端用,还需要Copy Device上的memory,Copy 到GPU上再做处理,这叫iGPU(Integrated GPU),然后在模组上集成到GPU再Copy回来,这是完整的Copy操作。
但物理内存来回Copy其实有些多余,这种情况下可以申请pin Memory固定内存,这个不会被分页交换出去,iGPU可以直接访问,而且没有Cache直接访问,效率会高很多。
另外一种Unify Memory,跟可分页内存类似,但是它把Cache这段隐藏在了Driver层面,没有Memory来回Copy的操作,隐藏在 Memory层面,这种效率也比较高,所以有这三种不同的Memory可以供大家选择。
这是关于CUDA Memory在Jetson的使用案例,主要就是Cache,像Unify Memory两头都在Cache,对固定内存来说是非常重要的点,GPU没有Cache,在CPU中有Cache,这就意味着在使用过程中,不同的场景可以选不同的方式,效率也会更高些。
所以,我们来总结一下,Page Memory不适合频繁的数据操作,如果是大块的数据来回搬运就比较合适;而Pin Memory,因为没有Cache,所以适合数据不重复的操作,就是本身不需要缓存的场景下,数据量需要频繁操作,这种场景Pin Memory就比较合适。
而统一内存Unify Memory,因为统一内存两侧都带Cache,而且简化了拷贝,所以对于重复操作也是比较合适的选择,但是对一些频繁操作,而且有一定重复性还比较合适,因为它有Cache。但如果没有特别高的重复性,那就Pin Memory比较合适,否则这样Cache了也是浪费。
下面是针对于Pin Memory和Page Memory的测试,是基于的CUDA 0_Sample零拷贝的例子,因为是零拷贝,没有传统的配置Memory,加完之后做个对比,对比后可以看到Page Memory有来回有两次拷贝动作,就DtoH HtoD这样的拷贝。对于Copy来说 Pin Memory比Page Memory稍微减小些。
最直观的理解就是,如果使用Pin memory至少减少两次来回拷贝动作,大家再做这种类似这种Jetson CUDA移植的时候,如果性能不太好,可以重点关注一下这个。
05、性能分析需要使用的工具及使用方法
当所有的Program都移植完成,最后一步就是Profiling的操作,NVIDIA提供了Nsight这样的工具帮助大家去快速定位,目前有三个不同的模块让大家使用,Nsight Systems是做整个Pipeline级别的一个Profiling。
Nsight Computer是对kernel内部更细力度的分析,Nsight Graphics是对做渲染类应用的分析,一般来说在Jetson上最常用的是Nsight Systems。
需要注意的是,Nsight Systems安装不能直接从官网下载,因为它是X86版本,刷机的时候需要选择Host Machine,选中之后Nsight Systems会把这些组件装上,装好后就可以在主机启动,启动完以后,可以远程刷IP去连接。
开始跑运行以后,在这里可以看到业务代码、Memory Copy、CUDA Core、时间占比以及时序之间的关系,都看得非常清楚,这样帮助大家更好的定位瓶颈。
对于Profiling再稍微多说一句,在Nsight Systems之前也有Profiling翻译工具叫NVPROF,基于这个也可以做Profiling工作,这个工具目前Jetson版本里面还有,所以大家如果不装Nsight Systems用这个也可以做直接做分析,这里可以看到各个API调用的时间占比。
另外,Jetson还有一个CUDA加速库叫NPP,NVIDIA已经做了优化加速的图像库和项目处理库,实现了一些功能,如果大家有类似的需求,也不一定要自己去开发,可以看到一下NPP里面有没有直接的使用,如果有的话这样也会节省你的时间。这个NPP在Jetson和显卡里面都有,所以在移植过程当中,NPP也是可以考虑优化的选择。
最后给大家列了一些在移植过程当中可以参考的资料,主要是关于CUDA方面。
今天跟大家分享的内容就是这些,谢谢大家,再见。