安徽芜湖,成了中国大模型行业乃至AI产业的关注焦点。
这里并非是数据中心传统意义上的集聚地,如今成为全国十大数据中心集群之一和国家“东数西算”的重要节点,三大运营商、华为、中科曙光、字节跳动等15个龙头企业数据中心项目落子集群起步区。
6月14日,华为云华东(芜湖)数据中心成为该集群首个开服的项目,自然受到了额外的关注。
一方面,这是在东数西算和大模型背景下,观测芜湖乃至中国智算产业的一个绝佳窗口;另一方面,安徽芜湖与贵州贵安、内蒙古乌兰察布三大数据中心,是华为最高规格、最大规模、最新技术的数据中心,构成了华为云的算力“铁三角”。
有心者可能还记得一个时间点,2018年,华为轮值董事长徐直军首次发布华为AI战略与全栈全场景AI解决方案,其中包括全球首个覆盖全场景人工智能的华为Ascend(昇腾)系列芯片以及基于华为Ascend(昇腾)系列芯片的产品和云服务。
当时大模型还遥遥无期,华为的AI战略不可谓不超前,而且华为没有把人工智能定位为新业务,更多定位为一种使能技术,用全栈全场景的能力,支撑所有企业探索人工智能。
全场景,是指包括公有云、私有云、各种边缘计算、物联网行业终端以及消费类终端等部署环境;全栈是技术功能视角,是指包括芯片、芯片使能、训练和推理框架和应用使能在内的全堆栈方案。
如果按照正常的产业发展方向,华为本该早已完成AI全栈战略布局。但是2019年的“制裁事件”,打乱了华为所有的节奏,也给国内算力产业敲响了警钟。
行业内外一度怀疑,华为还能不能活下来,AI战略似乎也难以实现。
华为云芜湖数据中心开服的意义远超一个数据中心本身,它标志着华为云全国存算网云核心枢纽布局全面完成,继而成为华为AI全栈能力的锚点,也在宣告——华为六年前吹过的“牛”,正在一步步兑现。
通用目的技术,缺失的一环
技术进步是经济增长的源泉,而长期的经济增长是由少数几种关键技术所推动的,经济学家称之为“通用目的技术” ,蒸汽机、电力、内燃机和数字技术,就是四种最典型、最重要的通用目的技术。
不同于此前蒸汽机驱动了第一次工业革命,单一技术的作用更大,有学者认为,数字技术曾以计算机和互联网为典型代表,目前已从过去的单点突破进入多技术协同推进、群体性演变的爆发期,呈现出扩散速度加快、迭代周期缩短的特点。
前几年云计算和大数据、物联网等技术如火如荼,在如今的人工智能面前却逊色不少,说明即便同属于通用目的技术,也有主次之分。
华为早有预判:人工智能是一组技术集合,是一种新的通用目的技术,不仅可以使我们以更高的效率解决已解决的问题,也可以解决很多没有解决的问题。
其中值得思考的是,华为并没有将云计算、大数据、物联网等技术视作通用目的技术,而是置于人工智能的技术集合中。
根据技术代差递补性(Technical Generation Complementary)理论,当一项具有代差的全新技术出现时,由于它自身的不完备性,往往需要现有技术作为其补充,与之形成在技术上的“高低搭配”,因此新技术并不能够完全取代现有技术而主宰整个市场。
比如,固定电话的出现并没有立刻导致电报的出局,但移动电话的出现却直接将电报三振出局;再如五代战机与四代战机形成高低搭配,淘汰三代机等。
这也就启示我们,人工智能是新的代差技术,云计算等则是承载人工智能的底座,当人工智能与现有技术形成高低搭配的全栈组合,它的价值才能彻底释放。
虽然如何供应大模型算力,业界目前尚未统一,有私有云、公有云等多种方式,但最终都在走向云计算的技术架构,例如全球多地、多活、多架构,离线在线混布、容器化部署等。
海外公有云和AI也在趋近,典型如OpenAI和微软,AWS和一众大模型创企,都说明了云计算成为补足AI技术代差的关键,中国市场的特殊之处,就是缺失了芯片层。
每一次通用目的技术的发展,旧有巨头总会面临淘汰危局,新的明星企业总会异军突起,越早转身,越早抓住机会的企业,才能收集到尽可能多的筹码。然而,当这些企业准备轰轰烈烈拥抱新时代时,有一重问题难以避开,和华为6年前AI战略转型相似,在人工智能的技术集合中,由于海外封锁原因,导致中国企业更难获得底层关键的算力。
科大讯飞董事长刘庆峰就提到,关键问题是算力能不能顶上,我们特别需要更大规模的国产算力支撑,还好有华为公司,能够在真正的硬科技算力层面上解决给世界第二种选择。现在业界能够量产做大模型训练除了英伟达只有华为一家,在推理上已经做到完全对标英伟达。
云和AI的关系近似电和电机、鱼和水,水大鱼大,更大的发电厂才有丰富多样的电器。与此同时,云计算从定义IaaS往下已经延伸到了芯片指令集,如果哪家公有云巨头没有深入到芯片侧,则意味着在智能时代即将出局。
没有算力根技术的基础设施,智能便无法发展起来。由此云计算被硬生生划分为两个阶段,以x86为主的通算云,和以NPU、GPU为主的智算云,所有的一切都在被重构。
重新定义大模型时代的数据中心
数据中心是AI全栈技术的重要一环,自然也处于重构当中。数据中心向下纳管数以十万计的服务器,计算、存储和网络共同构成庞大的计算集群,支撑AI大模型的训练等任务;
向上将算力服务化,以云计算的形式对外输出给千行百业,让企业不必担心基础设施底座,只需要专注于自己的核心业务,实现AI战略转型。
根据Scaling Law原理,随着模型规模的增加,包括参数数量、数据规模和计算资源,模型的性能也会相应提高,这也是为何单体数据中心的规模越做越大,企业需要的单一算力集群规模也越来越大。
因此,具备更大规模效应的公共算力中心,才是解决算力紧缺问题的最佳方案,“算力的尽头是上云”,而具备自主可控芯片的昇腾云服务,则是企业所需云算力的最佳方案。
如果说此前的数据中心产业格局,更多是政府规范下的市场自然演进,先有需求再有建设,那么,“东数西算”就是在国家顶层规划下,算力产业资源和生态的协调再分配。不仅要解决当下的算力需求,也要考虑未来产业如何发展。
2022年2月,“东数西算”工程正式全面启动,如今火热的大模型,在2022年底才掀起了新一轮的算力热潮,东数西算工程适度超前建设的思路,在大模型领域有了直观的效果。
面向大模型时代的数据中心,也要遵循Scaling Law的指引,华为云华东(芜湖)数据中心率先打了个样。
华为云华东(芜湖)数据中心的建设规格与以往有很大不同,按照Uptime Tier3、国标A级标准设计,每个园区总体规划多栋DC+1栋综合楼+变电站,江北、三山、职教园三个园区,总占地6000亩,规划了300万台服务器,园区之间通过光纤网进行连接,对外是TB级互联网出口带宽。
规格高、规模大只是一方面,华为云还在数据中心引入了多种首创技术。例如AI技术精准控制温度,采集了数据中心、IT基础设施、云服务的全栈数据集进行训练,首创了云服务感知能效调优技术,AI智能调优精度高达99.5%,可使PUE降低8%至15%,液冷数据中心PUE低至1.1,华东区域能效最优,每100万台服务器每年可以节省10亿度电。
此外,华为云芜湖数据中心也是业界首个全栈使用IPv6的云数据中心,同时首创机房产品化,交付过程中的质量问题降低了90%,在运维层面首次引入IOT技术,实现了告警秒级上报,故障分钟级定位。
数据中心内,服务器一刻不停地计算、存储、传输,但是作为AI基础设施底座,用户对数据中心的感知并不明显,他们也不必关心数据中心的建设,更不必提“风火水电”等数据中心的基本要素。
他们关心的是,数据中心如何直接作用于大模型等人工智能业务换句话说,数据中心只是表象,内里的AI全栈能力,是华为更值得关注的部分。
主权AI,如何建设?
在AI热潮下,全球范围内主要国家均大力投资AI基础设施,“主权AI”的概念随之兴起,指的是单个国家或地区通过建立AI基础设施、提高AI能力来满足自身发展需求,这也是国家层面希望人工智能作为通用目的技术起到的效果,经济增长、产业革新。
实际上,不仅国家需要主权AI,产业、企业和个人都需要自己的主权AI,这就涉及到从智算中心到云计算,从芯片到大模型平台的全栈AI体系。华为云昇腾AI云服务不仅包括云化算力,也提供了AI开发生产线ModelArts和AI开发者生态AI Gallery。
首先,昇腾云服务可提供“6A”级算力,故障恢复快 、资源获取快,模型迁移快、 云上推理投资优、就近服务时延优 、云上性能优,满足自研大模型、增量训练大模型、智能应用开发等;
昇腾云服务可提供多样化算力的使用、管理和部署模式,独有的多级恢复机制和完备的工具链可实现千卡训练连续30天不中断,任务恢复时长小于30分钟,为大模型和AI应用的开发、运行、运维提供最佳算力云底座。
其次,昇腾云服务提供了AI开发生产线ModelArts,其是面向AI开发者的一站式开发平台,提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成及端 - 边 - 云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期AI工作流。
同时,昇腾云服务还可以满足多样化算力部署模式,除了支持华为全场景AI框架昇思MindSpore外,还支持Pytorch、Tensorflow等主流AI框架。这些框架中90%的算子,都可以通过华为端到端的迁移工具平滑迁移到昇腾平台。
最后是AI开发者生态AI Gallery,基于昇腾云服务算力底座,构建一站式AI社区服务平台,包含丰富AI资产、服务、解决方案。适配业界主流开源大模型,易用开发工具和超强算力,助力企业和开发者快速创建模型应用,在大模型时代快人一步。
纵观全球大模型产业,中国大模型产业缺失关键一环,因此遭受了最严峻的挑战,如今这些难题正在被包括华为在内的产业各方逐步解决。
徐直军此前曾表示,任何技术只有准确的定位,才会充分发挥其价值,给人工智能技术进行合理的定位,是理解和应用此技术的基础。
当华为确立了人工智能的定位,也找到了自己在AI产业中的定位。华为是国内最早布局AI的厂商之一,且攻取的都是AI的根技术,算力、大模型、开发平台等,根深叶茂,本固枝荣,中国大模型产业的天花板可能不在于大模型本身,而在于算力根柢。
回到云计算的视角,中国云计算产业的竞争焦点,也不只关乎云平台本身,更与如何满足企业的AI需求息息相关。表面上,云仍然是最重要的基础设施,企业上云和深度用云的进程仍在进行中;而实质上,从云时代到智能时代,企业对于AI的诉求将决定云计算行业的未来格局,华为云正凭借全栈AI能力,试图描摹出这个新时代的清晰轮廓。
如同互联网产业的繁荣,离不开通信基础设施的完善,华为一以贯之做“黑土地”,无论在哪个时代,都去做孕育应用诞生的tech of tech。
江湖多风波,何妨且徐行。华为用了六年,兑现了此前的承诺。(本文首发于钛媒体APP,作者 | 张帅)
根据《网络安全法》实名制要求,请绑定手机号后发表评论