第一个把AI芯片带进手机的华为，今年算力要飞的更高

看似高深的人工智能（AI）技术，其实已经“润物细无声”地深入大众生活。仅你手中的一部智能手机，就可能可以实现人脸识别、物体识别、物体检测、图像分割、智能翻译等AI功能。这背后，依仗的是手机算力的大幅提升。

举例来说，一枚一分钱硬币大小的华为麒麟980手机芯片，就集成了69亿个晶体管，具备每秒钟完成万亿次级运算的能力。你可能想不到，如今市面上任意一台智能手机的算力，都比美国航空航天局1969年登月计划中最先进的计算机高出几百、上千万倍乃至更高。

事实上，数据、算力和算法，驱动着人工智能的第三次浪潮。其中，算力正是最重要的基石。目前，手机端的芯片算力已迎来质的飞跃，那么用于云端的、需要处理自动驾驶等复杂场景中海量数据的AI芯片，又需要多强大的算力呢？OpenAI近期发布的研究显示，2012年以来，人们对于算力的需求出现指数级别的增长，六年来增超30万倍，平均每年增长10倍，远远超过了摩尔定律的发展速度。

进入2019年，如果说最受舆论关注的ICT和智能终端厂商是华为，那么截至目前业界算力最高的AI处理器——Ascend（昇腾）910芯片，就是今年在人工智能圈最受期待和关注的AI芯片。

率先将专用NPU AI芯片引入手机

人工智能的发展历程中，尽管我国在数据方面极具优势，但在算法、算力方面仍待提高，尤其是芯片与硬件的算力。一直以来，算法科学家、工程师和应用厂商面临着AI算力稀缺和成本昂贵的问题，这两者大大抬高了算法研究和创新门槛，也阻碍了AI向全行业普及和应用的步伐。

尽管如此，考虑到AI芯片对我国科技发展有重要意义，不少厂商不惜金钱、时间和人力成本，发力打造各自的芯片体系。这其中，要数华为在AI芯片方面的布局表现最为亮眼。

在AlphaGo一战成名之前，绝大多国人就已经完成了从功能手机到第一代智能手机的转换，见证了手机系统功能特性及第三方应用的全面升级；随后，人类社会步入AI新纪元，用户对于AI进入移动终端的期待值越来越高。

然而，将人工智能引入到手机终端并非易事。无论是普通的AI功能还是场景化AI服务，都需要手机完成复杂、密集的深度学习算法模型运算。与此同时，手机要具备强大的算力，不仅需要一定的运行环境，还对功耗、内存、存储空间有较高要求。

经过漫长的研发和测试，华为最终在2017年9月的柏林电子消费展上，正式发布了全球首款移动端AI芯片麒麟970，这也是全球首款内置了独立神经网络处理单元（即NPU）的人工智能芯片，其内置NPU性能大幅优于CPU、GPU和DSP这些通用计算单元。相比CPU，内置NPU拥有约50倍能效和25倍性能优势。这也就意味着，麒麟970芯片可以用更少的能耗更高效地完成AI计算任务。

一个月后，华为发布了搭载麒麟970的旗舰手机Mate 10，率先将专用NPU AI芯片引入手机。此后，苹果、三星等厂商纷纷跟进，到今天，AI芯片已成为众多手机厂商的旗舰配置。

据了解，有了NPU加持，手机的功能也会变得更加强大。例如，使用语音功能时，AI会对当前语境和内容做细致的分析，将语音识别的成功率提升到更高的级别，为用户带来精准的识别体验。未来，智能语音助手将能替代传统的手工输入，在人们的生活中扮演更重要的角色。或许，以后你在大街上再也见不到边玩边走“低头族”，而是会看到更多人对着手机“自言自语”了。

而在用户十分关心的拍照方面，AI的出现同样为喜欢手机摄影的用户带来不少福利。麒麟970搭载双通道ISP图像信号处理器，在动态影像捕捉和低光拍照上有很大的提升。双摄镜头+双ISP软硬件优化，再配合人工智能的计算机视觉分析，能帮助手机自动分析画面内的物体，选择最佳的拍照模式；甚至，还可以进行物体追踪对焦并预测拍照时机，为用户带来前所未有的拍照体验。

也就是说，麒麟970的推出，是传统智能手机和未来AI手机的重要分水岭，标志着AI手机的发展已从单纯的算法优化进入了硬件能力的真·人工智能比拼阶段。

2018年8月，同样是在柏林电子消费展上，华为又发布了全球首款7nm人工智能手机芯片——麒麟980。7nm是什么概念？要知道，一根头发丝的直径约为0.1毫米，7nm是头发丝的万分之一，相当于70个原子直径。而就是在这个不到1平方厘米的麒麟980芯片内部，布局有超过69亿个晶体管，这几乎逼近了硅基半导体工艺的物理极限，麒麟980真正实现了在针尖上翩翩起舞。

华为消费者业务CEO余承东表示，麒麟980的7nm工艺是由超过1000多名半导体工程师组成的团队历时3年、经历超过5000多次的工程验证精心打磨的成果。

相对于麒麟970，麒麟980有移动端双NPU强大算力加持，在性能上全面升级。以图像识别速度为例，麒麟970每分钟可识别约2005张图像，而麒麟980每分钟可识别4500张，速度提升120%。此外，麒麟980也给人脸识别、语音助手、AI拍照，及各类智能美拍P图等手机APP带来了全面升级。

除此之外，华为还推出了麒麟710、麒麟810芯片，意在让更多消费者享受到人工智能带来的体验升级。其中，后者是华为首款采用自研达芬奇架构NPU，第二款采用7nm工艺的手机芯片。

至此，华为完成了第一轮在手机端的AI芯片布局（麒麟970、麒麟980、麒麟710、麒麟810），带领着手机全行业正式走入了AI时代。

“达芬奇”构建端边云算力大爆发基础

AI赛道比拼，影响的绝不仅是手机端，边缘侧、云侧的硬件算力、数据算法等元素无一不处于白热化的竞赛之中，几乎每天都有新的论文、新的产品问世。

如果说华为在芯片上的持续投入属“居安思危”，显示的是其远见与决心；那么，华为在人工智能领域的野心则更为宏大：不仅要覆盖云、边、端各种场景，还要形成从应用使能到系统到芯片的闭环。

2018年10月，华为在其全联接大会上首次提出了全栈全场景AI解决方案。华为轮值董事长徐直军表示，“全场景，是指包括公有云、私有云、各种边缘计算、物联网行业终端以及消费类终端等部署环境。全栈是技术功能视角，是指包括芯片、芯片使能、训练和推理框架和应用使能在内的全堆栈方案。”

其中，全栈AI的基础，是一系列基于统一的达芬奇架构的AI芯片——从IoT到终端（如麒麟芯片的NPU）、到边缘侧再到云。在会上，徐直军还宣布，“外界一直在传华为在开发AI芯片，我要告诉大家，这是事实，我们今天发布两颗AI芯片：华为昇腾（Ascend）910和310。”此言一出，立刻在国内外人工智能圈子惊起波澜——华为终于祭出了大招。

达芬奇架构针对AI运算特征而设计，以高性能3D Cube计算引擎为基础，实现了算力和能效的大幅提升。从云、边缘、端独立的和协同的AI实际需求出发，从极致低功耗，到极致大算力的AI场景，为云、边、端之间的算法协同、迁移、部署、升级和运维，提供了统一架构底层核心支撑，大大降低了人工智能算法开发和迭代的门槛，降低企业人工智能部署和商用成本。

目前，昇腾（Ascend）芯片家族中的昇腾310已经落地商用。基于昇腾310，华为陆续发布了Atlas 200、Atlas 300、Atlas 500、Atlas 800等产品，目前已被广泛应用于安防、金融、医疗、交通、电力等行业，涉及摄像机、无人机、机器人、智能小站、MDC（Mobile Data Center）等产品形态。而基于昇腾310的AI云服务，华为云图像分析类服务、OCR服务、视频智能分析服务等超过50款API已获得超过1亿次的日均调用量。

随着昇腾310相关产品大规模上市，外界对昇腾910的期待更高。去年10月，徐直军宣布“昇腾910是计算密度最大的单芯片，最大功耗为350W，半精度为（FP 16）256 Tera FLOPS，比英伟达 V100的125 Tera FLOPS还要高出近1倍。若集齐1024个昇腾910，将会出现迄今为止全球最大的AI计算集群，性能也将达到256个P，不管多复杂的模型都能轻松训练。”也就是说，昇腾910是业界算力最高的AI处理器，相同功耗情况下，它的算力是业界芯片的2倍，最强CPU的50倍。

全栈全场景AI逐步落地

除了昇腾系列芯片外，华为提出的全栈AI，还包括支持端、边、云独立的和协同的统一训练和推理框架MindSpore，芯片算子库和高度自动化算子开发工具——CANN,提供全流程服务（ModelArts）、分层API和预集成方案的应用使能。

其中，在2019年已经落地实现商用的，除了昇腾310，还有其面向用户和开发者的门户——华为云ModelArts。作为一站式AI开发平台，ModelArts可提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成，及端-边-云模型按需部署能力，帮助用户快速创建和部署模型，管理全周期 AI 工作流。2019年5月，在斯坦福大学DAWNBench榜单上，华为云ModelArts获得图像识别训练第一，ImageNet-1k数据集上用128块V100 GPU训练ResNet-50模型仅需要2分43秒，比2017年10月斯坦福DAWN的训练时间13天10小时41分钟快了数百倍。

也就是说，从端侧到边缘侧再到云侧，从底层硬件到深度学习框架再到上层应用使能，华为的全栈全场景AI战略正在逐步落地。下一步，华为还将向市场兑现更多曾在AI芯片研发方面的“誓言”。

【记者】许隽

【作者】许隽

【来源】南方报业传媒集团南方+客户端

电脑装配网

第一个把AI芯片带进手机的华为，今年算力要飞的更高

人阅读 | 作者pangding | 时间：2023-07-01 03:21

相关文章