在昨日举行的华为全连接大会上,华为终于揭开了其自研AI芯片的神秘面纱。

据华为轮值总裁徐直军介绍,华为这次推出的两款芯片分别是昇腾910和昇腾310,这都是华为基于其自研的达芬奇架构打造的两款新品。其中昇腾910是当前单芯片计算密度最大的AI芯片。该产品采用7nm工艺打造,最大功耗做到350w,其他参数也是表现优越:在半精度 (FP16)下,可以做到256 TeraFLOPS,在整数精度 (INT8)下,更是做到了512 TeraOPS,另外,该款芯片还支持128 通道的全高清视频解码器(H.264/265)。

分析首颗7纳米Arm服务器芯片性能分析和应用

华为昇腾910介绍

徐直军表示,华为昇腾910在与英伟达和谷歌的芯片对比时,也拥有强大的领先优势。芯片将在20 19年Q2到来,这会在云端给华为带来训练和逻辑服务系列的强大支持,冲破现在市场被TPU和英伟达垄断的局面。

分析首颗7纳米Arm服务器芯片性能分析和应用

华为昇腾910介绍

另外,华为还发布了昇腾310,按照徐直军的说法,华为这款极致高效计算低功耗的AI SoC是针对边缘AI而推出的产品。作为一款同样采用达芬奇架构的芯片,华为昇腾310采用了12nm FFC工艺制造,在半精度 (FP16)情况下,可以做到8 TeraFLOPS,在整数精度 (INT8) 下,则能做到16 TeraOPS,还能支持16 通道全高清视频解码器 - H.264/265,而其最大功耗只有8W,这款芯片现在就已经能够给客户提供全方位的支持。

分析首颗7纳米Arm服务器芯片性能分析和应用

华为昇腾310介绍

华为方面表示,他们基于统一、可扩展架构的系列化 AI IP和芯片昇腾拥有nano、tiny、mini、lite和max五个系列,能提供横跨全场景的最优TOPS/W支持。

徐直军在接受采访的时候向记者强调,华为的昇腾芯片将不会对外单独销售,而是以AI加速卡、加速模块、服务器和一体机等模式对外销售。华为的全栈AI战略也在昇腾面世之后,得到了全方位补全。

分析首颗7纳米Arm服务器芯片性能分析和应用

华为的AI解决方案

在面向未来的AI机会,华为将会聚焦在投资基础研究、打造全栈方案、投资开放生态和人才培养、解决方案增强和内部效率提升这五个方面。具体而言就是:

在计算视觉、 自然语言处理、 决策推理等领域构筑数据高效(更少的数据需求)、 能耗高效(更低的算力和能耗),安全可信、自动自治的机器学习基础能力;

打造面向云、 边缘和端等全场景的、 独立的以及协同的、 全栈解决方案, 提供充裕的、 经济的算力资源, 简单易用、 高效率、 全流程的AI平台;

面向全球, 持续与学术界、产业界和行业伙伴广泛合作;

把AI思维和技术引入现有产品和服务, 实现更大价值、更强竞争力;

应用AI优化内部管理, 对准海量作业场景, 大幅度提升内部运营效率和质量;

华为这些新产品的推出,在业界引起了广泛讨论。无独有偶,笔者也从知情人士处看到了华为的Arm服务器芯片的相关产品曝光。

华为7纳米

Arm服务器芯片曝光

日前,华为正式对外披露了其新一代的Arm服务器芯片Hi 1620。

据知情人士告诉半导体行业观察记者,华为这颗Arm服务器芯片是基于Arm V8 架构自主设计的,使用当前业界最先进的7nm工艺打造。据了解,华为在此芯片上提供32、48和64核的版本,最高支持2.6/3.0Ghz的主频,能够支持PCIE 4.0&CCIX。

华为方面表示,这是业界第一颗支持PCIE4.0的7纳米Arm服务器芯片。从华为的PPT中我们可以看到,Hi 1620的48核版本的CPU和英特尔Skylake 8180 的SPECint 性能相当,但在功耗方面会比后者低20%。

分析首颗7纳米Arm服务器芯片性能分析和应用

华为Hi 1620的细节

作为一个涉足广泛的企业,华为的Arm服务器芯片已经有了多代的发展。

从wikichip可以看到,2015年,华为推出了其第一代Arm服务器芯片Hi 1610,这个采用Arm Cortex-A57设计的16核芯片主频最高只能做到2.1Ghz。

在2016年,中国十二五科技创新成就展上,华为展出了其第一台ARM平台服务器“泰山”(Taishan),配备自主研发ARM架构64位处理器“Hi1612”,采用台积电16nm工艺打造,兼容ARMv8-A指令集。华为方面表示,除了存储单元外,该处理器具有完整的自主知识产权,可应用于大数据分析、共有云、信息搜索等领域,并已在阿里巴巴试用。

2017年,华为又推出了HI 1616,这个采用Cortex-A72设计的32核芯片最高主频可以做到3Ghz,再到今年Hi 1620。可以看到,虽然华为并没有大肆宣传其Arm服务器芯片,但是在过去的几年也都保持每年一款的更新频率。

分析首颗7纳米Arm服务器芯片性能分析和应用

华为Arm服务器芯片系列

考虑到华为本身在手机、云和存储等方面的影响力,这个Arm服务器产品的到来,对于华为本身,是对自身产业链的进一步完善。能够为客户提供定制化、全方位的可控一条龙服务。

放大到整个中国集成电路产业来说,华为的这个系列产品线或许能在英特尔把持的服务器芯片市场杀出一条新路。但毫无疑问,这将会面临来自国内外的多个竞争对手的挑战。

暗流涌动的

Arm服务器芯片市场

近年来,随着Intel服务器芯片的市场份额的日益攀升,国内自主可控需求的兴起,Marvell收购Cavium、华芯通的成立、高通的淡出,Arm服务器芯片市场一直暗流涌动。虽然开始有些人在退出,但在Arm的推动下,也有新的玩家进入这个市场,华为就是当中一个代表。正如上文所说,从华为的业务上看,Arm服务器芯片业务对他们来说是一个产业链环节的补充。

除了华为之外,国内的飞腾、华芯通,美国的Ampere也都是Arm服务器市场的重要角色。

首先看一下飞腾方面。

早前,天津飞腾信息技术有限公司首席科学家窦强在接受半导体行业观察等媒体采访的时候提到,飞腾在2017年推出了飞腾FT2000+处理器,这个使用16nm工艺打造的芯片拥有64个内核、主频可以做到1.8-2.3GHz,以标准spec测试的实测性能和英特尔2013年推出的至强处理器性能相当,飞腾也完成了服务器存储、数据库和中间件适配的相关工作。

在窦强看来,飞腾这个处理器性能和英特尔的产品相比还有很大的差距,甚至他们这款产品还是单路设计,不能满足大规模的设计需求。但是飞腾未来会将其扩展两路,甚至八路,以匹配高端服务器的处理器需求。

飞腾公司总经理谷虹之前说过,飞腾的CPU虽然是基于ARM技术架构研发,但包括CPU计算模块在内的代码部分均为公司历时多年自主研发完成。这就使得飞腾能够在这系列产品的自主可控上面,拥有更高的自主权。

来到华芯通,这是由贵州政府和高通共同成立的,专注于Arm服务器芯片的企业。

据凤凰科技在今年五月的报道,华芯通自主研发的第一款服务器芯片——“华芯1号”已经于2017年年底试产流片成功,并将于今年下半年上市商用。而他们研发的第二代产品“华芯3号”目前已经在研制当中。

据报道,这款服务器芯片只有半张银行卡大,集成了约10亿个晶体管和2800多个管脚,芯片制程为10纳米。通过内置自主安全模块大大提升芯片安全系数,是“华芯1号”的一大亮点,它可以应用在高性能计算机上面,发挥迅速及时处理庞大数据的功能。

至于Ampere,则是由Intel前高管Renee James创立的。在半导体行业观察之前对James女士发起的专访中她提到,Ampere的核心团队大部分来自Intel和AMD这些芯片巨头,公司的大多数人在服务器的软硬件领域拥有非常丰富的经验,他们对服务器芯片和软件的理解相当深入,这就使得他们成为Arm服务器领域的新兴势力。

在今年九月,Ampere推出了该公司旗下面向数据中心的第一代 64 位 Armv8-A架构的,16nm工艺打造的处理器,这款他们设计的 32 核 Armv8-A 处理器在Turbo 模式下主频高达 3.3 GHz。处理器已获得联想及其他几家原始设计制造商 (ODM) 的选择。

按照他们的说法,这款处理器具有优秀的总体拥有成本 (TCO) 价值、强大的计算性能和内存容量以及丰富的 I/O,用来处理云工作负载,包括大数据、Web 层以及内存数据库。

Ampere 还公布了未来多代产品路线图,包括下一代 的7nm 产品等。这款产品将提供单插口和多插口选项,并于 2019 年上市,这将用于将来的超大规模云计算和边缘计算。

上述可见,华为在Arm服务器芯片方面的领先优势领先于全球的竞争对手。

总结

虽然华为的Arm服务器芯片迄今为止一枝独秀,但我们可以看到,英特尔花费数十年打造下的服务器生态是无法撼动的。但华为依赖于其多年来积累的芯片设计经验,又在一个领域走在了全球前年。加上华为本身在AI芯片、ISP芯片、手机SoC和其他各种芯片、终端和应用上的积累,华为未来在Arm服务器市场必将扮演一个重要角色。

至于未来,就看Arm如何联合各大芯片供应商、软件厂商在这个领域的生态上共同发力了。

文/半导体行业观察 李寿鹏