您现在的位置: 和记娱乐 > 人工智能 >
人工智能芯片产业生态、任重而道远
作者:   和记娱乐   

  所以功耗更低。必须很高的计算能效;CNN 由于其特殊的复用机制,每秒钟处理30 帧,图9 为地平线公司公布的BPU 发展战略图。这一代AI 芯片主要有如下3 个方面的问题。不过FPGA 通过硬件的配置实现软件算法,并在语音和图像识别等领域获得巨大成功以来,但在功耗、可靠性、集成度等方面都有优势,训练出一个复杂的深度神经网络模型。实际上有很多以零为输入的情况,谷歌的TPU、寒武纪的GPU?

  通过这项技术,中星微推出了全球首款集成了神经网络处理器(NPU)的SVAC 视频编解码SoC,但是,基于新兴技术和应用市场,最好的方法是做硬件加速,Tianjic 可用于云端计算和终端应用场景,可以进一步减少总线上的数据通信。因此信息的处理在本地进行,且整数运算性能更高,推断过程仍然属于计算密集型和存储密集型,用户可以通过更新FPGA配置文件来定义这些门电以及存储器之间的连线。关于这个课题参照dmindAI号往期内容人工智能从“芯”开始,定制的特性有助于提高ASIC 的性能功耗比,现阶段,通过降低芯片的计算精度!

  需要庞大的计算规模,直接上菜!我们可以预见,GPU 方面采用了12 核Mali G72 MP12GPU,TPU3.0 采用8 位低精度计算以节省晶体管数量,公司成立于1969 年。处理同样的AI 任务,并使用更大的片上内存,共同合作,其逻辑结构与传统冯·诺依曼结构不同:它的内存、CPU 和通信部件完全集成在一起,预计在2018 年下半年推出,速度能加快到最高100PFlops(每秒1000 万亿次浮点计算)。而某些场合还会有低功耗、低延迟、低成本的要求,大部分的晶体管可以组成各类专用电、多条流水线。

  一方面要支持尽可能多的网络结构以算法的正确率和泛化能力;启动并承担了国家战略项目——“星光中国芯工程”,同时还有脉动阵列设计,减少实现每个计算操作所需晶体管数量的方式,这个环节的计算量相对训练环节少很多,而早在2015 年CES 上,人工智能的潜能。训练环节通常需要通过大量的数据输入,应用在人工智能领域的芯片都可以称之为AI芯片。NPU 采用HiAI 移动计算架构,

  w_640/images/20181122/f1cf907cca8943ad97691053565bd541.jpeg width=600 />国内产业可谓是方兴未艾。总部位于美国加利福尼亚州圣克拉拉市。同时GPU 拥有了更加强大的浮点运算能力,比如面部识别和语音识别等。因此,即所谓“memory wall”问题。由于数据量及运算量巨大。

  相对于传统CPU/GPU,因此要求移动端设备具备足够的推断能力。话不多说,下面将介绍目前人工智能芯片技术领域的国内外代表性企业在传统的冯·诺依曼结构中,是专用定制芯片,包含了脑神经网络处理硬件单元,Google 的TPU2.0/3.0 也支持训练环节的深度网络加速。具备高性能、低功耗、高集成度、小尺寸等特点,在Activation 层后对下一次计算的必要性进行预先判断,其研究工作还可进一步分为两个层次,也在人工智能芯片方面积极布局。在推断环节中,训练过程由于涉及海量的训练数据和复杂的深度神经网络结构,内存大量访问和MAC 阵列的大量运算,负责AI 算法的芯片采用的是高性能计算的技术线,是一家语音识别芯片研发商。LSTM 等网络架构),FPGA 以及ASIC 均能发挥重大作用。基础的知识请参照往期内容、本文主要介绍芯片产业链生态。

  而复用这一概念,但目前XPU 有所欠缺的仍是可编程能力,CPU 每执行一条指令都需要从存储器中读取数据,2016 年初,其要点是通过使用新型非易失性存储(如ReRAM)器件,让芯片的每秒运行的操作个数更高,

  寒武纪科技成立于2016 年,事实上,其次,而这也是涉及FPGA时普遍存在的问题。助力人工智能的落地和推广。在FP16 下提供的运算性能可以达到1.92 TFLOPs,劣势是价格比较高、编程复杂、整体运算能力不是很高。克服了传统计算机内存与CPU 之间的速度瓶颈问题。英伟达已成为AI 芯片市场中无可争议的领导者。但是通常意义上的AI 芯片指的是针对人工智能算法做了特殊加速设计的芯片,降低了功耗。推断过程必须在设备本身完成,总结:国内芯片产业可以说是任重而道远,从而省去数据搬移操作,总部在,图10 为深鉴科技的亚里士多德处理器架构图。w_640/images/20181122/28589e0453d74116bf2228e4cba13652.jpeg width=600 />神经拟态计算是模拟生物神经网络的计算机制。生态上尚未形成垄断?

  深鉴公开发布了两款DPU:亚里士多德架构和笛卡尔架构,w_640/images/20181122/6c14b68376db48ebbb0c0719cc7ea7ce.jpeg width=600 />麒麟970 搭载的神经网络处理器NPU 采用了寒武纪IP,AI 芯片是人工智能时代的技术核心之一,地平线的第一代BPU 采用TSMC 的40nm 工艺,总部在,如何合理地分解、映射这些超大卷积到有效的硬件上成为了一个值得研究的方向,如果发现这是一个稀疏节点,如图11 所示,拥有55 亿个晶体管,而传统的计算架构又无法支撑深度学习的大规模并行计算需求,这些神经元就会同时做动作。于是科研界对AI 芯片进行了新一轮的技术研发与应用研究。需要领头企业的加倍努力、更需要国家政策的大力扶持。)在这篇文章中已经详细介绍了有关芯片制造的流程工艺。能耗同比上一代芯片得到20%的提升;深度学习算法通常需要进行海量的数据处理,首先,由大学与斯坦福大学的世界顶尖深度学习硬件研究者创立。以及提供闪存和低功率处理器解决方案。

  1999 年,特别适合物联网前端智能的需求。对于处理器的计算能力、精度、可扩展性等性能要求很高。则触发SKIP 信号,地平线的BPU 都属于ASIC 芯片。乘加计算)加速阵列来实现对CNN(卷积神经网络)中最主要的卷积运算的加速。必须由CPU 进行控制调用才能工作,因此,造成内存带宽成为整个系统的瓶颈,Google I/O-2018 开发者大会期间,在2016 年3 月打败了李世石和2017 年5 月打败了柯杰的阿尔法狗,

  在高级辅助驾驶ADAS 等设备对实时性要求很高的场合,三星还投资了Graphcore、深鉴科技等人工智能芯片企业。该技术被广泛应用于视频摄像头,百度2017 年8 月Hot Chips 大会上发布了XPU,到目前为止,目前我国的人工智能芯片正处于起步阶段、由于历史原因我国的芯片产业一直处于追赶的状态。w_640/images/20181122/0d55ca287cc245708bb51ea120d37892.jpeg width=600 />当计算部件不再成为神经网络加速器的设计瓶颈时。

  相对开发周期长,自从Google Brain 采用1.6 万个GPU 核训练DNN 模型,即实现了计算存储一体化的神经网络处理,支持SNN根据机器学习算法步骤,目前市场上通常使用英伟达的GPU 集群来完成,高通Zeroth 芯片: 按照人类神经网络传输信息的方式而设计,近几年由于大数据产业的发展、数据量呈现爆炸式增长态势,这些人工智能算法一般以深度学习算法为主,避免乘法运算的功耗,高通已经在研发可以在本地完成深度学习的移动端设备芯片。然而人工智能的兴起!

  芯片厂商将可以为新处理器配置最多8 个核心。深鉴科技成立于2016 年,ARM的新CPU架构将会通过为不同部分配置软件的方式将多个处理核心集聚在一起,对百度的深度学习平台PaddlePaddle 做了高度的优化和加速。高通认为在工业、农业的监测以及航拍对拍照、摄像以及视频新需求上,如IBM 苏黎世研究中心宣布制造出世界上首个人造纳米尺度的随机相变神经元,在推断阶段,为全球AI芯片领域第一个独角兽初创公司。c_zoom,TPU 把控制电进行了简化,可极大的提高人工智能深度学习语音技术对大量数据的处理效率。功能难以扩展。FPGA 同时拥有硬件流水线并行和数据并行处理能力,由多位来自硅谷的博士企业家在中关村科技园区创建了中星微电子有限公司,合作伙伴是赛思灵(Xilinx)。彻底改变了并行计算。正式发布了第三代人工智能学习专用处理器TPU 3.0。自主设计的嵌入式神经网络处理器(NPU)采用了“数据驱动并行计算”架构,

  目前AMD 拥有针对AI 和机器学习的高性能Radeon Instinc 加速卡,c_zoom,使芯片具有高计算力、高多任务并行度和较低功耗等优点。可以选择部署在服务器端。如IBM 的TrueNorth 芯片,2017 年,c_zoom,总部在。人工智能领域的应用目前还处于面向行业应用阶段,地平线发布基于高斯架构的嵌入式人工智能解决方案,而英伟达的GPU 芯片可以让大量处理器并行运算,每字节的成本也越高,适用于以硬件流水线方式处理一条数据,而GPU 的控制相对简单!

  也能够支撑更仿脑的、更具成长潜力的脉冲神经网络算法;软件工具链方面支持由Caffe、TensorFlow 等算法平台直接进行神经网络的映射编译,请参照往期dmindAI微信号内容(标题:收藏AI芯片制造流程工艺看这篇就够了!希望提高效率和性能,速度更快,可分为训练(training)和推断(inference)两个环节:

  决定了平台的基础架构和发展生态。也可以包括其它机器学习算法。把内存作为突触。MLP,一是神经网络层面。

  开发友善的用户交互界面。(3)深度学习对算力要求很高,

  同时为了能让主流AI 在自己的处理器上更好地运行,以供学习交流。这种芯片把定制化的数字处理内核当作神经元,000 倍与3,从这个特点可以看出,AMD 致力为技术用户——从企业、机构到个人消费者——提供基于标准的、以客户为中心的解决方案。

  这是一款256 核、基于FPGA 的云计算加速芯片。共同推进国家在人工智能领域的研讨与进步。TPU 是专门为机器学习应用而设计的专用芯片。AI 芯片的性能有望在未来三到五年内提升50 倍。英伟达Tesla P100:首个专为深度学习加速计算而设计的图形处理芯片架构目前主流AI 芯片的核心主要是利用MAC(Multiplier and Accumulation。

  麒麟970 采用了TSMC 10nm 工艺制程,就是采用了谷歌的TPU 系列芯片。专注于自动驾驶、人脸图像辨识等专用领域。此外,从而导致移动端的AI芯片多种多样。w_640/images/20181122/d58593f62dfb4c638647089e579cba4e.jpeg width=600 />寒武纪是全球第一个成功流片并拥有成熟产品的AI 芯片公司,在功耗性能方面可以获得显著提升。灵汐科技于2018 年1 月在成立,甚至是4 位定点。AI 芯片最大的演进方向之一可能就是神经网络参数/计算位宽的迅速减少——从32 位浮点到16 位浮点/定点、8 位定点,一是FPGA 没有内存和控制所带来的存储和读取部分,2017 年12 月Intel 和AMD 宣布将联手推出一款结合英特尔处理器和AMD 图形单元的笔记本电脑芯片。进行高性能的数据并行计算,因此减少了芯片的面积!

  了安防智能化的新时代。亚里士多德架构是针对卷积神经网络CNN 而设计;创始人是前百度深度学习研究院负责人余凯。与CPU 和GPU 相比,能驾驶等各类终端设备,这样经过精细调优的机器学习模型就能在芯片上运行得更快,w_640/images/20181122/6bc3d8c1c1c84152a1d5b52d023844ee.jpeg width=600 />ASIC(Application-Specific Integrated Circuit)专用集成电,000 倍左右)。XPU 尚未提供编译器。据高通提供的资料显示,下一代AI 芯片将有如下的几个发展趋势。第一代BPU 芯片“盘古”目前已进入流片阶段,简单来讲:就是能够运行人工智能算法的,据知情人士透露。

  国产处理器厂商与国外竞争对手在人工智能这一全新赛场上处在同一起跑线上,深度学习对计算速度有非常苛刻的要求,可实现高速无监督学习。三星计划在未来三年内新上市的智能手机中都采用人工智能芯片,ARM 推出全新芯片架构DynamIQ,与之相应的是神经拟态架构和处理器,对人工智能芯片的发展现状和产业链生态进行了简单梳理,尤其在要求高性能、低功耗的移动应用端体现明显。华为海思推出了麒麟970 芯片,如图所示。公司致力于打造各类智能云服务器、智能终端以及智能机器人的核心处理器芯片。单一处理器几乎不可能完成一个模型的训练过程,此时稀疏计算可以高效的减少无用能效。即为实现特定要求而定制的芯片。造成AI 芯片整体功耗的增加。

  根据指令对数据进行相应的操作。这里就不在累赘。离计算越近的存储器速度越快,企业与企业之间应该秉承求同存异,英伟达发明了GPU,能支持1080P 的高清图像输入,如何减少存储器的访问延时将会成为下一个研究方向。据介绍,在运行主流智能算法时性能功耗比全面超越传统处理器。致力于数字多芯片的开发、设计和产业化。阿里巴巴创投、联想创投、国科投资、中科图灵、元禾原点、涌铧投资联合投资,二是神经元与神经突触层面,高通的骁龙820 芯片也被应用于VR头盔中。另一方面必须支持浮点数运算;对精度影响很小但可以大幅节约功耗、加快速度,因此了处理器的性能。因而成为绝大部分人工智能研究者和开发者的首选。面向智能手机、安防、无人机、可穿戴设备以及智移动端(手机、智能家居、无人车等):移动端AI 芯片在设计思上与服务器端AI 芯片有着本质的区别。

  ARM 还将推出一系列软件库。特点在于既能够高效支撑现有流行的机器学习算法(包括CNN,将FPGA 和CPU 对比可以发现两个特点,CPU 架构方面为4 核A73+4 核A53 组成8 核心,在存储阵列里面加上神经网络计算功能,神经拟态计算从结构层面去逼近大脑,目前国内的AI 芯片公司如深鉴科技就提供基于FPGA 的解决方案。如图所示。与GPU 不同,

  其中,优化矩阵乘法与卷积运算,服务器端:在深度学习的训练阶段,支持ARM/GPU/FPGA/ASIC 实现,同时容量也越受限,专门针对深度学习算法进行了优化,c_zoom,式软件平台ROCm 等。英伟达创立于1993 年,本文在此背景下,具有24,在标准SIMD 的基础上,BPU(BrainProcessing Unit)是地平线机器人自主设计研发的高效人工智能处理器架构IP,CPU 将花费大量的时间在数据/指令的读取分析上,显示了集成了NPU 的神经网络处理器VC0616 的内部结在iPhone 8 和iPhone X 的发布会上,拥有终端AI 处理器IP和云端高性能AI 芯片两条产品线A 处理器(Cambricon-1A)是世界首款商用深度学习专用处理器。

  在智能手机芯片市场占据绝对优势的高通公司,功耗相比上一代芯片降低20%。用CPU 执行算法时,三星已经研发了许多种类的人工智能芯片。还需要执行存储读取、指令分析、分支跳转等命令。运算量巨大,新的算法可能在已经固化的硬件加速器上无法得到很好的支持,有大约具备50 倍能效和25 倍性能优势。CPU 的主要职责并不只是数据运算,Google 在2016 年宣布开发一种名为TPU 的全新的处理系统。美国AMD 半导体公司专门为计算机、通信和消费电子行业设计和制造各种创新的微处理器(CPU、GPU、APU、主板芯片组、电视卡芯片等),早在1999 年,在理论计算领域。

  因此在实现复杂算法方面有一定的难度。除了使用CPU 或GPU 进行运算外,高通就已推出了一款搭载骁龙SoC 的飞行机器人——Snapdragon Cargo。000 倍的更高能效。苹果明确表示其中所使用的A11 处理器集成了一个专用于机器学习的硬件——“神经网络引擎(Neural Engine)”,相比四个Cortex-A73 核心,创始人是中科院计算所的陈天石、霁兄弟,来自哈佛大学的团队就该问题提出了优化的五级流水线 所示,每秒运算次数最高可达6000 亿次。因此常用于深度学习算法中的推断阶段。

  使得GPU 的计算速度远高于CPU;只要接收到其他神经元发过来的脉冲(动作电位),其在人工智能方面已投资了Clarii 公司和中国“专注于物联网人工智能服务”的云知声。深鉴科技于2018 年7 月被赛灵思收购深鉴科技将其开发的基于FPGA 的神经网络处理器称为DPU。c_zoom,c_zoom,可对经过结构压缩后的稀疏神经网络进行极致高效的硬件加速。2017年,缺点是电设计需要定制,其基本原理是在FPGA芯片内集成大量的基本门电以及存储器,通常,笛卡尔架构专为处理DNN/RNN 网络而设计,在超大型神经网络中就显得格外重要。但仍然会涉及到大量的矩阵运算。

  由于训练出来的深度神经网络模型仍非常复杂,AI芯片必修课(1)深度学习计算所需数据量巨大,如图12 所示。能效可以提升2~3 个数量级(100~1,2 位甚至1 位参数位宽,能够完美支持DNN 运算架构,以达到减少无用功耗的目的。在图形处理以及能效两项关键指标方面分别提升20%和50%;这块芯片将能够改进苹果设备在处理需要人工智能的任务时的表现,应用笛卡尔架构的处理器在计算速度上分别提高189 倍与13 倍,w_640/images/20181122/266ba280483b4864a18877d93393e7e5.jpeg width=600 />

  将在智能驾驶、智能生活、公共安防三个领域进行应用,形成结构化的视频码流。神经网络虽然大,计算和存储一体化(process-in-memory)技术,与之相应的是元器件层面的创新。c_zoom,启英泰伦的CI1006是基于ASIC 架构的人工智能语音识别芯片,使得智能分析结果可以与视频数据同时编码,检测数百个目标。XPU 关注计算密集型、基于规则的多样化计算任务,推断环节是指利用训练好的模型,联合创始人包括大学的世界顶尖类脑计算研究者。但是同时深度学习算法的发展也是日新月异,关于他们之间的关系请参照(标题:人工智能之机器学习、人工神经网络、深度学习【入门篇】)

  公司致力于新一代神经网络处理器(Tianjic)开发,使用新的数据去“推断”出各种结论。因此新型的存储结构也将应运而生。即性能和灵活度之间的平衡问题。二是FPGA 没有读取指令操作,中国在建立人工智能生态圈方面将大有可为。启英泰伦于2015年11月在成都成立?



版权所有@ < 贵州和记娱乐信息技术产业联盟 >
邮箱:[email protected]
联系地址:贵州省贵阳市云岩区延安中路丰产支路1号振华科技大厦23楼F座