当前位置：世界数码科技网 >> 热门转载 >> 文章正文

哈瓦那在英伟达坚实的AI训练墙上开了一个口

发布于：2020-12-17 被浏览：2868次

AWS宣布采用最多8个Habana Gaudi加速器的EC2实例，性价比相较目前基于GPU的EC2实例提升达40%。

作者|包永刚

在利润丰厚的云AI芯片市场，英特尔和NVIDIA分别以CPU和GPU占据了云AI推理和训练市场90%以上的份额。即便如此，还是有很多挑战者想要进入云芯片市场，但很少有挑战者取得重大突破，以色列公司哈瓦那实验室(Habana Labs)就是其中之一。

在最近的AWS re:Invent 2020发布会上，AWS宣布将采用多达8个哈瓦那高迪加速器的EC2实例，性价比将比目前基于GPU的EC2实例高40%，计划在2021年上半年使用。

哈瓦那实验室在英伟达固云AI培训市场的突破能否进一步扩大？AI云芯片市场真的是由英特尔的NVIDIA主导的吗？

用40%性价比提升突破英伟达

的GPU训练城墙

—

哈瓦那实验室在英伟达AI训练芯片的坚固墙壁上开了一个洞，原因有二。第一，NVIDIA GPU在AI训练芯片市场占据绝对主导地位，亚马逊这样的科技巨头除了自主开发的芯片，很少使用其他训练芯片，这是一个里程碑式的突破。

另外，高迪加速器这次是在TensorFlow上训练ResNet-50模型，表现出更高的性价比，这是单一的突破，而不是综合优势。

根据AWS内部的测试，Habana Labs的EC2实例比目前GPU在机器学习性价比上提升了40%。8卡的Gaudi解决方案可以在TensorFlow上每秒处理12000张图像训练ResNet-50模型。

雷锋网了解到，当下众多数据中心使用的Tesla V100 GPU，8卡训练TensorFlow ResNet-50的速度是7600张/秒。今年5月发布的最新英伟达A100 GPU 8卡则可以达到1.7万张/秒的速度。

可以看出，与上一代V100 GPU相比，高迪优势显著，但与最新的A100 GPU相比，性能仍有一定差距。功耗方面，根据英伟达官方数据，NVLink接口A100 GPU最大功耗为400W，PCIe接口A100最大功耗为250W.

Habana Labs中国区总经理于明扬告诉雷锋网，16纳米制程的Gaudi功耗在260W-300W之间，功耗比A100 GPU略有一点优势。Habana Labs在现有制程和功耗上的表现，说明整个架构相对A100 GPU没有任何劣势，应该还有一定的优势。

目前流程改进难度越来越大，所以通过架构创新提高性能更为重要，尤其是在模型参数不断增加的云训练领域。余杨明说：“在我们的芯片架构设计中有两个重要的考虑因素。一是考虑芯片本身的数据需求，二是通过并行化解决数据需求。”

他进一步表示，单一芯片架构变化不会那么快，通过并行化对整个训练系统性能的提升会更加高效、实用。业界也认识到片间互联以及系统间互联对整个训练系统性能的影响，因此在互联上花费更多精力去设计更加高效的训练系统应对未来更大规模的模型。

哈瓦那高迪的做法是将32GB的HBM2内存集成到每个处理器中，并集成RoCE功能，用于服务器内部处理器的互连，从而可以使用多个基于高迪的系统来实现高效、可扩展的分布式训练。

但是要打动已经用NVIDIA GPUs训练AI的公司，性价比只是一个方面。

“现在客户接受新产品会同时考虑性价比和软件生态。性价比要达到主流平台的两倍以上，客户才有动力去尝试一个新平台。”于明扬说：“软件方面需要客户可以很方便和快捷的将现有模型移植到新的平台，并且只有很少的性能和精度损失。”

这就需要一个更好的软件生态系统，既提供完整的工具链，又具有高度的灵活性，最好能帮助客户实现无缝迁移。于明扬表示，“AWS选择Habana也是这两个考虑，一个是Habana目前在训练上性价比是唯一能挑战英伟达的产品，另一个是软件的易用性也被AWS接受。”

据悉，与高迪配套的Habana SynapseAI软件套件集成了TensorFlow、Pythorch等流行的深度学习框架，高迪进行了优化。开发人员将可以访问开放的高迪软件、参考模型和文档。

接下来，哈瓦那实验室能否进一步开放云培训市场对英特尔至关重要。

英特尔在AI训练市场双重出击

—

2020年1月，英特尔宣布将以20亿美元收购哈瓦那。

在谈到我们选择英特尔的原因时，于解释说：“考虑到保持企业属性不变、持续提供产品和服务以及减少客户担忧，我们更愿意选择中立的公司。英特尔是哈瓦那的理想选择。原因之一是英特尔有足够的客户群，可以给我们很多支持。另一个是给我们带来更稳定的技术资源和资金支持，增加客户对我们的信任。”

哈瓦那被英特尔收购后独立运营，团队规模扩大三倍。哈瓦那向数据平台集团报告，并在销售和营销方面与英特尔密切合作。

雷锋网了解到，AWS在明年一月份开放Gaudi资源申请之后，大概需要经过半年的时间才会给出明确的结论，之后才能看到Gaudi是否可以有比较大的量的突破。另外，Habana在国内已经与头部和二线互联网公司建立了广泛的合作，它们基本已经开始试用Habana产品，有的客户已经开始批量采购。

哈瓦那能否进一步开拓云培训市场，产品的持续迭代和与英特尔的整合是关键因素。

根据Habana的说法，其下一代云端训练AI芯片Gaudi2将基于台积电7nm工艺，在Gaudi效能的基础上进一步提升。同样明确的是，Habana会把训练和推理的产品分开。

“推理更注重性价比，数据可以一次加载到芯片的片内存储器，效率更高。然而，训练需要重复加载数据、更大的片内和片外存储器、高带宽和低延迟。将这两个特性结合起来是一个很大的挑战。我们会针对不同场景提供更合适的产品，给客户更好的体验。”余杨明解释道。

这些产品都会融入英特尔的体系，于明扬透露：Gaudi计划在明年加入oneAPI体系。

OneAPI是英特尔提出的统一软件平台，不仅将其CPU、GPU、FPGA、ASIC带入这个系统，还希望通过DCP支持第三方芯片。

基于统一的软件平台，英特尔还可以使用最新的Xe架构GPU来争夺云培训芯片市场。基于Xe的GPU是22年后英特尔推出的高性能独立GPU，分为Xe LP(低功耗)、Xe HP(高性能)和Xe HPC微架构，面向不同的市场。

今年11月，英特尔发布了首款数据中心GPU，基于Xe-LP架构，专为高密度、低时延的安卓云游戏和流媒体服务而设计。

英特尔GPU加哈瓦那AI加速器能在云培训市场赢得多大份额还有待观察，但这也提出了一个新问题。云AI芯片市场还有机会吗？

云端AI芯片市场还有机会吗？

—

“无论是AI训练还是推理，CPU都起着重要的作用，因为很多预处理的AI加速卡和GPU都无法处理，这就需要CPU和GPU/AI加速器的配合。比如在推荐系统中，数据查找表和分类CPU都很擅长。”余对说道。

“在整个AI中，CPU、GPU和像哈瓦那这样的ASIC扮演着不同的角色。英特尔的优势在于，无论什么链接，英特尔都有合适的产品和解决方案。”

英特尔显然不是唯一看到XPU(CPU、GPU、FPGA、ASIC)价值的人。

今年9月，英伟达宣布将以400亿美元收购Arm。Arm是一家成立于英国的IP公司，其Cortex CPU IP应用广泛。现在正积极进军高性能计算市场，在500强榜单上取得了不错的成绩。如果收购成功，Arm的CPU与NVIDIA的GPU结合，将有助于NVIDIA进一步提升在高性能和AI市场的竞争力。

这样，Intel和NVIDIA不仅拥有强大的硬件产品，还拥有强大的软件和生态。除了技术巨头开发的云AI芯片，其他想进入云AI芯片市场的公司还有机会吗？我们有理由在这个问题上保持积极的态度。

英特尔亚洲人工智能销售技术总监伊红卫说：“2019年英特尔全球人工智能收入已经达到38亿美元了，AI是一个跨部门、跨产品的生意。在我看来，AI仍处于早期阶段，还有很长的路可以走，现在还是大浪淘沙的时候，我深信英特尔会成为弄潮儿。”

英特尔和英伟达将如何在云AI芯片市场竞争？AMD收购Xilinx会带来哪些变数？

标签：英特尔英伟云端