您当前的位置 :

网站首页

>

新闻中心

Jetson Xavier、Jetson TX2、 1080(Ti)、2080显卡运行深度学习模型性能对比

2020-11-12 16:43:47

英伟达的Jetson TX2使得很多人认为a深度学习模型终于可以像嵌入式开发平台那样做到小型化了,不用再跑在高配计算机或者服务器上面了,但是实际上Jetson TX2开发板的性能和深度学习常用到的1080(Ti)以及2080 还有一定的差距,接下来英伟达又出了一个Jetson Xavier,可以说是Jetson TX2的升级版,性能自然是强了很多,并且个人很喜欢的是英伟达把他封装成了一个小黑盒子,非常便携。

1、常见的GPU:RTX 2080 Ti、RTX 2080、GTX 1080 Ti、Titan V和Tesla V100

        下表中的数据为FP32(单精度),batchsize=32时的测试结果,数字代表吞吐量(即每秒处理的图片的数量 img/s )

        (FP16 或int 8 时吞吐量数值会更大)

模型/GPU20802080 TiTitan VV1001080 Ti
RESNET-50209.89286.05298.28368.63203.99
RESNET-15282.78110.24110.13131.6982.83
InceptionV3141.9189.31204.35242.7130.2
InceptionV461.68178.6490.656.98
VGG16123.01169.28190.38233133.16
AlexNet2567.383550.113729.644707.672720.59
SSD300111.04148.51153.55186.8107.71

2、Jetson TX2 深度学习性能测试

       以GoogleNet 、VGG16说明,Jetson TX2暂时不支持int 8 格式的数据。

        image.png       image.png

3、Jetson Xavier 性能测试

        batchsize=32

       

4、Jetson Xavier、Jetson TX2、 1080(Ti)、2080 在VGG16深度学习模型运行性能的对比

      FP32(单精度)格式数据,batchsize=32,数据为吞吐量(img/s)

      

      可以看出来Jetson Xavier 虽然有一定的差距,但是随着模型层数(复杂度)的增加,其和1080ti的差距越来越小,实际的性能已经超越了1080 显卡了,因此具有一定的实用性。

注:Xavier和TX2 中使用的为TensorRT框架,其预先为开发者做了大量繁重的准备工作,使他们能充分利用GPU中的Tensor Core(张量计算核心)和DLA单元(Deep Learning Accelerator,深度学习加速器),所以当你使用自己训练的TensorFlow模型或者caffe模型,需要进行转换一下,然后才可以运行,当然你也可以直接安装TensorFlow,但是这样你就有可能舍弃了张量核和DLA,开发板的性能有可能得不到充分的发挥。

Copyright © 2014. Neardi 上海临滴科技有限公司 版权所有. 沪ICP备14034935号