当前位置:首页> 圈子> 圈子新帖

人工智能芯片的挑战和机会

AI对半导体产业带来巨大机会

人工智能(AI)的爆炸性应用正开启半导体设备的新纪元,在带来众多新机遇的同时也提出巨大挑战。在由美国应用材料公司和SEMI在2018年7月召开的SEMICON West大会期间举办的AI设计论坛上, IBM研究部高级副总裁John E. Kelly博士在谈到人工智能将如何显著改变世界时表示:“这是一个计算时代,其规模将使之前的时代相形见绌,其方式将改变我们所有的业务和所有行业以及我们所有的生活。这是助力推动半导体产业向前发展的时代。机会数量巨大。”在现有的15亿至20亿美元的信息技术产业之上,人工智能有2万亿美元的决策支持机会。“从字面上看,世界上每个行业都会受到这种影响和改变”。

应用材料公司首席执行官Gary Dickerson在上述活动上发言时表示,AI“需要在边缘和云端创新,实现数据的产生(在边缘)、存储和处理以释放价值。与此同时,摩尔定律正在放缓,创造了完美的机会。硬件再次变得迷人。在过去的18个月中,芯片初创公司所获得的资金比过去18年还多。除了来自英特尔和高通等传统IC公司的AI芯片外,还有超过45家初创公司正致力于开发新的AI芯片,风险投资超过15亿美元,其中至少有5家企业筹集了超过1亿美元。谷歌、Facebook、微软、亚马逊、百度和阿里巴巴等科技巨头也在开发AI芯片。拥有比其他任何人早12个月胜出的AI芯片可能是一个1000亿美元的机会。“应用材料公司的内部驱动力是速度和上市时间。一个月的价值是多少?一分钟的价值是多少?” 

SEMI总裁兼首席执行官Ajit Manocha称其为半导体行业的“重生”。他在最近的一篇文章中指出:“人工智能正在改变一切——并将半导体带回当之无愧的聚光灯下。AI的数百泽字节(zettabytes)和数万亿美元的潜在市场依赖于新的半导体架构和计算平台。制造这些AI半导体引擎需要在材料、设备和设计方法领域的大量创新。” 

AI核心是分析非结构化数据

在去年年底召开的国际电子器件会议(IEDM)期间应用材料举办的展览会上,IBM研究院副院长兼Almaden实验室主任Jeff Welser博士表示,人工智能的爆炸式增长是由需要处理大量非结构化数据所驱动,现阶段我们仅在短短的两天内生成的数据就与2003年全年产生的数据总量一样多。“在2020年左右估计将产生50泽字节的数据。这是21个零。”

Welser将在2019年5月召开的ConFab 2019上发表主题演讲。他指出,80%的所有数据都是非结构化的,增长速率是结构化数据的15倍。“如果你看一下增长情况,它实际上是一种完全不同类型的数据。语音数据、社交媒体数据,包括大量图像、视频、音频和文本,是非常非结构化的文本。”然后是物联网互连传感器的数据。

有多种方法来处理这些数据。CPU对于结构化的浮点数据非常有效,而GPU在AI应用程序中运行良好,但这并不意味着人们不会将传统的CPU用于AI。今年8月,英特尔表示其在2017年销售了10亿美元的人工智能处理器芯片。英特尔数据中心负责人Navin Shenoy表示,英特尔已对其CPU进行了优化,在过去几年中人工智能训练方面的表现改进了200倍,Xeon处理器在人工智能领域的销售额在2017年达到10亿美元,而公司的总收入为628亿美元。英特尔人工智能产品部门负责人Naveen Rao表示,这笔10亿美元的计算来自于客户,这些客户告诉英特尔购买芯片用于人工智能,以及计算有多少客户的数据中心用于此类工作。

为AI应用的硬件定制并不是新鲜事物。Welser说:“即使早在90年代,他们就开始使用ASICS和FPGA试图找到更好地做到这一点的方法。”例如,谷歌在2016年推出的张量处理单元(TPU)是专为机器学习应用而研制的定制ASIC芯片,使芯片对降低的计算精度有更高的容忍度,意味着每次操作需要更少的晶体管。

当GPU在2008~2009年出现时,人们意识到除了预先设计的应用——图形处理外,它们真的很适合做神经网络所需的那种数学运算。 “从那时起,我们已经看到了一大堆不同的架构,试图继续提高我们运行神经网络进行训练和推理的能力。” 

要实现AI工作,首先“训练”一个神经网络,其中权重根据输出而改变;然后是“推理”,其中权重是固定的。这可能意味着需要两种不同类型的芯片。“如果你没有尝试在其上学习,当你使用已经训练好的神经网络并运行它用于任何应用程序时,你可能会得到一些功率低得多、速度更快、效率更高的结果。对于我们讨论硬件的发展时变得非常重要。” 

AI芯片需减少耗电量

无论是CPU、GPU、ASIC还是FPGA,当今技术的问题是所需的处理功率和现有可用功率之间存在巨大差距。应用材料公司的Dickerson说:“我们在每瓦性能这一指标上还需提升1000倍。”不仅需要减少数据中心中AI处理器所用电量,还需要减少汽车、安全等移动应用,在这些应用中需要实时而非在云中做出决策,这也可能导致需要不同类型的AI芯片。一个有趣的例子是IBM世界领先的Summit超级计算机,拥有由27648台Nvidia GPU推动的9216台IBM处理器,占用相当于两个网球场空间,耗费一个小镇的电量。

研究方向

为了达到性能每瓦的新水平,在AI芯片级别的研究创新包括:

•低精度计算

•模拟计算

•电阻计算

在一项研究中,IBM人为地降低了神经网络的精度,结果令人惊讶。Welser说:“我们发现可以将浮点数降低到14位,并获得了与16、32或64位完全相同的精度。浮点数位在这个点上并不重要。”这意味着神经网络的某些部分可以具有高精度,而另一些部分则具有低精度。Welser说:“你可做出许多权衡,通过放弃精确度,可以降低功率或提高性能”。

老式模拟计算具有更低的精度,但可能非常适合AI。Welser说:“模拟计算在当时非常有效,只是当你试图做高精度浮点计算时,你无法以任何有意义的方式来控制错误或规模。但如果你真正想要的是拥有可变连接的能力,如神经元,那么也许你可以使用模拟设备。”

电阻计算是模拟计算的一个转折点,它具有消除内存和计算之间瓶颈的额外优势。Welser说将其视为神经元层,这些神经元之间的连接将是模拟电阻存储器。“通过改变电阻存储器的电平,在一个神经元和下一个神经元之间流动的电流量将自动变化。下一个神经元将根据流入其中的电流量决定将如何激发。IBM为该应用试验了相变存储器。“显然,相变存储器可以达到低电阻或高电阻(即1或0),但你无法使其变为介于两者之间的一个值,这正是我们想要利用的地方。有希望采用模拟设备作为一部分组成单元和摆脱内存的瓶颈,以及在实现高精度互连时避免所需的精度/功率要求。”

成功的电阻模拟存储器最终将归结为材料挑战。“我们希望存储容量有一千个级别,希望在关闭和打开时具有非常好的对称性,这不是你通常考虑的。业界面临的挑战之一就是考虑如何更好地获得满足这些需求的材料,而不仅仅是开启或关闭一位的直接存储。”

应用材料公司市场情报主管Sundeep Bajikar在一篇博客中写道,“解决处理器到内存的访问和带宽瓶颈将为AI带来新的内存架构,最终可能导致逻辑和内存制造之间的融合。IBM的TrueNorth推理芯片就是这样一种新架构的例子,其中每个神经元都可以访问自己的本地存储器,无需片外访问存储器。诸如ReRAM,FE-RAM和MRAM等新型存储器件可以催化以存储器为中心的计算领域的创新。将高性能逻辑和高性能存储器的工艺技术分离的传统方法可能不再适用于精度降低计算的新AI世界。”

热门板块