您当前的位置：

网站首页

新闻中心

人工智能芯片与传统芯片的区别

2020-10-28 18:06:57

作为AI和芯片两大领域的交差点，AI芯片已经成了最热门的投资领域，各种AI芯片如雨后春笋冒出来，但是AI芯片领域生存环境恶劣，能活下来的企业将是凤毛麟角。

　　谷歌在I／O大会发布了其第三代TPU，并宣称其性能比去年的TUP 2．0提升8倍之多，达到每秒1000万亿次浮点计算，同时谷歌展示了其一系列基于TPU的AI应用。

　　可以说，AI已经成为科技行业除了区块链之外最热门的话题。AI芯片作为AI时代的基础设施，也成为目前行业最热门的领域。

　　可以看到，AI芯片已经成为资本追逐的最热门领域，资本对半导体芯片的热情被AI技术彻底点燃。在创业公司未真正打开市场的情况下，AI芯片初创企业已经诞生了不少的独角兽，多笔融资已经超过亿元。

　　AI技术的革新，其从计算构架到应用，都和传统处理器与算法有巨大的差异，这给创业者和资本市场无限的遐想空间，这也是为什么资本和人才对其趋之若鹜的原因。

　　但是，产业发展还是要遵循一定的产业规律，笔者认为，绝大多数AI芯片公司都将成为历史的炮灰，最后，在云端和终端只剩下为数极少的几个玩家。

　　首先我们来分析下目前对AI芯片的需求主要集中在哪些方面。

　　先来讲讲AI目前芯片大致的分类：从应用场景角度看，AI芯片主要有两个方向，一个是在数据中心部署的云端，一个是在消费者终端部署的终端。从功能角度看，AI芯片主要做两个事情，一是Training（训练），二是Inference（推理）。

　　目前AI芯片的大规模应用分别在云端和终端。云端的AI芯片同时做两个事情：Training和Inference。Training即用大量标记过的数据来“训练”相应的系统，使之可以适应特定的功能，比如给系统海量的“猫”的图片，并告诉系统这个就是“猫”，之后系统就“知道”什么是猫了；Inference即用训练好的系统来完成任务，接上面的例子，就是你将一张图给之前训练过的系统，让他得出这张图是不是猫这样的结论。

　　Training和Inference在目前大多数的AI系统中，是相对独立的过程，其对计算能力的要求也不尽相同。

　　Training需要极高的计算性能，需要较高的精度，需要能处理海量的数据，需要有一定的通用性，以便完成各种各样的学习任务。

对于芯片厂家来说，谁有数据，谁赢！

那么哪些芯片厂家有大量的用户数据呢？BAT。按照这个逻辑、包括科大讯飞和华为未来也未必有足够的机会。谁有大量的数据，谁更有机会。

　　Inference相对来说对性能的要求并不高，对精度要求也要更低，在特定的场景下，对通用性要求也低，能完成特定任务即可，但因为Inference的结果直接提供给终端用户，所以更关注用户体验的方面的优化。

谷歌TensorFlow团队：深度学习的未来，在单片机的身上

Pete Warden，是谷歌TensorFlow团队成员，也是TensorFLow Mobile的负责人。

Pete 坚定地相信，未来的深度学习能够在微型的、低功耗的芯片上自由地奔跑。

换句话说，单片机 (MCU) ，有一天会成为深度学习最肥沃的土壤。

为什么是单片机

单片机遍地都是

今年一年全球会有大约400亿枚单片机 (MCU) 售出。MCU里面有个小CPU，RAM只有几kb的那种，但医疗设备、汽车设备、工业设备，还有消费级电子产品里，都用得到。

这样的计算机，需要的电量很小，价格也很便宜，大概不到50美分。

之所以得不到重视，是因为一般情况下，MCU都是用来取代 (如洗衣机里、遥控器里的) 那些老式的机电系统——控制机器用的逻辑没有发生什么变化。

CPU和传感器不太耗电，传输耗钱、耗电！

CPU和传感器的功耗，基本可以降到微瓦级，比如高通的Glance视觉芯片。

相比之下，显示器和无线电，就尤其耗电了。即便是WiFi和蓝牙也至少要几十毫瓦。

因为，数据传输需要的能量，似乎与传输距离成正比。CPU和传感器只传几毫米，如果每个数据都需要端管云这样传输，每个算法都需要输送到云端进行处理，自然代价就要贵得多。

传感器的数据很多，传输起来很费劲！

传感器能获取的数据，比人们能用到的数据，多得多。

例如：卫星的图片数据很多，但是传到地球很困难。

卫星或者宇宙飞船上的宇航员可以用高清相机来拍高清视频。但问题是，卫星的数据存储量很小，传输带宽也很有限，从地球上每小时只能下载到一点点数据。

地球上的很多传感器也一样，本地获得很容易，但是传输到远端的数据中心就需要很多的代价。

跟深度学习有什么关系

如果传感器的数据可以在本地运算，又不需要很多的代价和电力。

我们需要的是，能够在单片机上运转的，不需要很多电量的，依赖计算不依赖无线电，并且可以把那些本来要浪费掉的传感器数据利用起来的。

这也是机器学习，特别是深度学习，需要跨越的鸿沟。

相比之下，神经网络大部分的时间，都是用来把那些很大很大的矩阵乘到一起，翻来覆去用相同的数字，只是组合方式不同了。

这样的运算，当然比从DRAM里读取大量的数值，要低碳得多。

需要的数据没那么多的话，就可以用SRAM这样低功耗的设备来存储。

如此说来，深度学习最适合MCU了，尤其是在8位元计算可以代替浮点运算的时候。

深度学习很低碳

那么AI的计算，每次运算需要多少皮焦耳？

比如，MobileNetV2的图像分类网络，的最简单的结构，大约要用2,200万次运算。

如果，每次运算要5皮焦，每秒钟一帧的话，这个网络的功率就是110微瓦，用纽扣电池也能坚持近一年。

对传感器也友好

最近几年，人们用神经网络来处理噪音信号，比如图像、音频、加速度计的数据等等。

如果可以在MCU上运行神经网络，那么更大量的传感器数据就可以得到处理，而不是浪费。

那时，不管是语音交互，还是图像识别功能，都会变得更加轻便。

　　Training将在很长一段时间里集中在云端，Inference的完成目前也主要集中在云端，但随着越来越多厂商的努力，很多的应用将逐渐转移到终端。

　　然后我们来看看目前的市场情况。

云端AI芯片市场已被巨头瓜分殆尽，创业公司生存空间几乎消失。

　　云端AI芯片无论是从硬件还是软件，已经被传统巨头控制，给新公司预留的空间极小。不客气的说，大多数AI芯片公司、希望在云端AI做文章的初创公司几乎最后都得死。

数据越多，对应用场景越理解的公司，对算法、硬件的需求越清楚、越理解深入。

　　我们可以看到，芯片巨头Nvidia（英伟达）已经牢牢占据AI芯片榜首，由于CUDA开发平台的普及，英伟达的GPU是目前应用最广的通用AI硬件计算平台。除了有实力自研芯片的企业（全世界也没几家），如果需要做AI相关的工作，必定需要用到Nvidia的芯片。Nvidia的芯片应用普遍，现在所有的AI软件库都支持使用CUDA加速，包括谷歌的Tensorflow，Facebook的Caffe，亚马逊的MXNet等。

　　除了一骑绝尘的英伟达，其他老牌的芯片巨头都没闲着，特别是Intel通过买、买、买奋力的将自己挤到了头部玩家的位置。微软在最新的Build大会上公布了基于英特尔FPGA的AI方案，而英特尔的FPGA业务正是通过收购Altera获得的。

　　除此之外，我们可以看到像Google这样的互联网厂商也乱入了前五。这当然要归功于上面提到的TPU，虽然谷歌不直接售卖芯片，但是谷歌通过云服务提供TPU的调用服务。谷歌很早就开源了Tensorflow软件平台，这使得Tensorflow成为最主流的机器学习软件平台，已经成了事实上行业的软件平台标准。而Tensorflow最佳的计算环境必定就是谷歌自己的云服务了，通过软件、硬件（或者说云）环境的打通，谷歌妥妥的成为AI芯片领域的一方霸主。

　　现在业界争论的焦点是AI芯片的处理器架构用哪种是最好的，有前面提及的有GPU、FPGA、DSP和ASIC，甚至还有更前沿的脑神经形态芯片。现在GPU可以认为是处于优势地位，但其他几种的处理器架构也各有优势。Intel则是多方下注，不错过任何一种处理器架构。谷歌在TPU（其实就是一种ASIC）方面的巨大投入带来了硬件效能的极大提高，目前看来对GPU的冲击将是最大的，原因不单单是因为专用架构带来的效率优势，还有商业模式方面带来的成本优势。在半导体行业内的普遍观点是，一旦AI的算法相对稳定，ASIC肯定是最主流的芯片形态。看看挖矿芯片的进化历程，这个观点非常有说服力。

　　在云端，互联网巨头已经成为了事实上的生态主导者，因为云计算本来就是巨头的战场，现在所有开源AI框架也都是这些巨头发布的。在这样一个生态已经固化的环境中，留给创业公司的空间实际已经消失。

本人曾经在一个希望运用FPGA实现AI算法的公司待过一算时间。离开的原因肯定不止一个，但是这几个的原因是根本：

1、他们想做的事情，类似华为这样的公司，早一年已经做完，而且大公司招聘几十个博士投入做算法优化。

2、互联网巨头，手上有数据，最后算法、芯片、硬件可能都自己干。阿里从其他公司招聘了大量的AI人才。

3、FPGA只会是中间态，最终成本上会被ASIC打败。

从“硬件设计”的角度剖析“人工智能”的器件选型

4、生态决定一切！GPU对于软件的人来说，用起来太舒服了，FPGA用起来不顺手。FPGA从业人口少。

终端市场群雄割据，机会尚存。

　　上面说到了Inference现在主要是在云端完成的，这主要是因为现在终端上基本没有合适的处理单元可以完成相应功能。所以我们发现很多AI功能都需要联网才可以使用，这大大限制了AI的使用场景。所以将Inference放到终端来，让一些功能可以本地完成，成了很多芯片厂商关注的领域。

　　华为的麒麟970便是最早将AI处理单元引入到终端产品的芯片，其中该芯片中的AI核心，是由AI芯片创业公司寒武纪提供的IP（知识产权）。该芯片的引入，可以帮助华为手机在终端完成一些特定的AI应用，比如高效的人脸检测，相片的色彩美化等。此后，苹果，三星都宣布了在其处理器中引入相应的AI处理单元，提升手机终端的AI应用能力。

　　在终端上，由于目前还没有一统天下的事实标准，芯片厂商可以说是八仙过海各显神通。

　　给手机处理器开发AI协处理器是目前看来比较靠谱的方式，寒武纪Cambricon－1A集成进入麒麟970就是一个很好的例子。由于华为手机的巨大销量，寒武纪迅速成为AI芯片独角兽。而另外一家创业公司深鉴科技此前获得了三星的投资，其AI芯片IP已经集成到三星最新的处理器Exynos 9810中。

　　然而能获得手机大厂青睐的AI芯片厂商毕竟是少数，更多的AI芯片厂商还需要找到更多的应用场景来使自己的芯片发光发热。

　　相对于语音市场，安防更是一个AI芯片扎堆的大产业，如果可以将自己的芯片置入摄像头，是一个不错的场景，也是很好的生意。包括云天励飞、海康威视、旷视科技等厂商都在大力开发安防领域的AI嵌入式芯片，而且已经完成了一定的商业化部署。

　　相对于云端，终端留给AI芯片创业公司更广阔的市场。但是于此同时，由于应用环境千差万别，没有相应的行业标准，各个厂商各自为战，无法形成一个统一的规模化市场，对于投入巨大的芯片行业来说，有可能是好故事，但不一定是个好生意。

瑞芯微发布AIoT芯片RK1808，内置高能效NPU

这是一个深度学习纵横的时代：究竟什么是深度学习？

人工智能芯片与传统芯片的区别

谷歌TensorFlow团队：深度学习的未来，在单片机的身上

为什么是单片机

跟深度学习有什么关系

相关信息

新一代旗舰芯片瑞芯微RK3588，全面性能综合概览！

瑞芯微RK3588J RK3568J RK3399K工业级芯片，助力工控行业智能化数字化升级

测评 | 国产“芯” · 瑞芯微 RK3568 性能解析

内置RK3399芯，新一代PinePhone手机发布，推动Linux新发展

吴汉明院士对“后摩尔时代的芯片挑战和机遇”思考

解决方案

网站导航

联系我们