AI芯片和传统芯片的区别在哪里

发布时间：2022-07-05 14:23:28 所属栏目：大数据来源：互联网

导读：前几天成立仅两年国内专做人工智能FPGA加速算法的初创公司深鉴科技被国际巨头赛灵思收购了，在业界引起不小的震动。目前国内做AI芯片的公司可谓不少了，AI芯片已然成为了当下芯片行业最热领域。但是大部分人对AI芯片的架构应该都不是太了解。那么AI 芯片和

　　前几天成立仅两年国内专做人工智能FPGA加速算法的初创公司深鉴科技被国际巨头赛灵思收购了，在业界引起不小的震动。目前国内做AI芯片的公司可谓不少了，AI芯片已然成为了当下芯片行业最热领域。但是大部分人对AI芯片的架构应该都不是太了解。

　　那么AI 芯片和传统芯片有何区别？AI芯片的架构到底是怎么样的？带着这个疑问小编搜集到了来自知乎上的一些业内行家的观点，现在整理转发给大家。先回答问题：

　　这个时候就来看了，比如IBM的POWER8，最先进的服务器用超标量CPU之一，4GHz，SIMD，128bit，假设是处理16bit的数据，那就是8个数，那么一个周期，最多执行8个乘加计算。一次最多执行16个操作。这还是理论上，其实是不大可能的。

　　那么CPU一秒钟的巅峰计算次数=16* 4Gops =64Gops。这样，可以算算CPU计算一次的时间了。同样的，换成GPU算算，也能知道执行时间。因为对GPU内部结构不熟，所以不做具体分析。

　　再来说说AI芯片。比如大名鼎鼎的谷歌的TPU1。TPU1，大约700M Hz，有256X256尺寸的脉动阵列，如下图所示。一共256X256=64K个乘加单元，每个单元一次可执行一个乘法和一个加法。那就是128K个操作。（乘法算一个，加法再算一个）。

　　另外，除了脉动阵列，还有其他模块，比如激活等，这些里面也有乘法、加法等。

　　所以，看看TPU1一秒钟的巅峰计算次数至少是=128K X 700MHz=89600Gops=大约90Tops。

　　修改了模型，需要几个星期才能知道对错，确定等得起？突然有了TPU，然后你发现，吃个午饭回来就好了，参数优化一下，继续跑，多么爽！

　　计算速度快，才能迅速反复迭代，研发出更强的AI模型。速度就是金钱。

　　GPU的内核结构不清楚，所以就不比较了。肯定的是，GPU还是比较快的，至少比CPU快得多，所以目前大多数都用GPU，这玩意随便一个都能价格轻松上万，太贵，而且，功耗高，经常缺货。不适合数据中心大量使用。

　　总的来说，CPU与GPU并不是AI专用芯片，为了实现其他功能，内部有大量其他逻辑，而这些逻辑对于目前的AI算法来说是完全用不上的，所以，自然造成CPU与GPU并不能达到最优的性价比。

　　谷歌花钱研发TPU，而且目前已经出了TPU3，用得还挺欢，都开始支持谷歌云计算服务了，貌似6点几美元每小时吧，不记得单位了，懒得查。可见，谷歌觉得很有必要自己研发TPU。

　　目前在图像识别、语音识别、自然语言处理等领域，精度最高的算法就是基于深度学习的，传统的机器学习的计算精度已经被超越，目前应用最广的算法，估计非深度学习莫属，而且，传统机器学习的计算量与深度学习比起来少很多，所以，我讨论AI芯片时就针对计算量特别大的深度学习而言。毕竟，计算量小的算法，说实话，CPU已经很快了。而且，CPU适合执行调度复杂的算法，这一点是GPU与AI芯片都做不到的，所以他们三者只是针对不同的应用场景而已，都有各自的主场。

　　至于为何用了CPU做对比？

　　而没有具体说GPU。是因为，我说了，我目前没有系统查看过GPU的论文，不了解GPU的情况，故不做分析。因为积累的缘故，比较熟悉超标量CPU，所以就用熟悉的CPU做详细比较。而且，小型的网络，完全可以用CPU去训练，没啥大问题，最多慢一点。只要不是太大的网络模型。

　　那些AI算法公司，比如旷世、商汤等，他们的模型很大，自然也不是一块GPU就能搞定的。GPU的算力也是很有限的。

　　谷歌的TPU，寒武纪的DianNao，这些AI芯片刚出道的时候，就是用CPU/GPU来对比的。

　　看看，谷歌TPU论文的摘要直接对比了TPU1与CPU/GPU的性能比较结果，见红色框：

　　这就是摘要中介绍的TPU1与CPU/GPU的性能对比。再来看看寒武纪DianNao的paper，摘要中直接就是DianNao与CPU的性能的比较，见红色框：

　　回顾一下历史

　　上个世纪出现神经网络的时候，那一定是用CPU计算的。

　　比特币刚出来，那也是用CPU在挖。目前已经进化成ASIC矿机了。比特大陆了解一下。

　　从2006年开始开启的深度学习热潮，CPU与GPU都能计算，发现GPU速度更快，但是贵啊，更多用的是CPU，而且，那时候GPU的CUDA可还不怎么样，后来，随着NN模型越来越大，GPU的优势越来越明显，CUDA也越来越6，目前就成了GPU的专场。

　　寒武纪2014年的DianNao（NPU）比CPU快，而且更加节能。ASIC的优势很明显啊。这也是为啥要开发ASIC的理由。

　　至于说很多公司的方案是可编程的，也就是大多数与FPGA配合。你说的是商汤、深鉴么？的确，他们发表的论文，就是基于FPGA的。

　　这些创业公司，他们更多研究的是算法，至于芯片，还不是重点，另外，他们暂时还没有那个精力与实力。FPGA非常灵活，成本不高，可以很快实现架构设计原型，所以他们自然会选择基于FPGA的方案。不过，最近他们都大力融资，官网也在招聘芯片设计岗位，所以，应该也在涉足ASIC研发了。

　　如果以FPGA为代表的可编程方案真的有巨大的商业价值，那他们何必砸钱去做ASIC？

　　说了这么多，我也是半路出家的，因为工作需要而学习的。按照我目前的理解，看TPU1的专利及论文，一步一步推导出内部的设计方法，理解了TPU1，大概就知道了所谓的AI处理器的大部分。

　　然后研究研究寒武纪的一系列论文，有好几种不同的架构用于不同的情况，有兴趣可以研究一下。然后就是另外几个独角兽，比如商汤、深鉴科技等，他们每年都会有论文发表，没事去看看。这些论文，大概就代表了当前最先进的AI芯片的架构设计了。

　　当然，最先进，别人肯定不会公开，比如谷歌就不曾公开关于TPU2和TPU3的相关专利，反正我没查到。不过，没事，目前的文献已经代表了最近几年最先进的进展了。
　　

（编辑：开发网_开封站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

为何大数据为NFT创造了	浅析大数据的数据灾备
总做描述性统计深入的	使用替代数据的五个隐