AI浪潮下,如何体现云服务的价值?

新闻资讯   2023-07-02 10:17   73   0  

作者 | 鲁冬雪  

6 月 27 日至 28 日,2023 亚马逊云科技中国峰会(下文称“峰会”)于上海顺利召开。在本次峰会上,我们似乎找寻到了云计算领域竞争对手均日渐成熟,而亚马逊云科技却能一直保持领先地位的原因——过去的十几年里,亚马逊云科技“基于客户需求,快速进行产品更新与技术迭代”的 Day one 理念,一直不断地追求基础架构层面的创新。

6 月 28 日上,亚马逊云科技大中华区产品部总经理陈晓建进行了以《专注创新,摆脱基础架构束缚》为主题的演讲,在演讲中他分享了亚马逊云科技众多应用案例实践,阐明了亚马逊云科技在云基础架构方面的能力与创新及在全球布局方面做出的努力。

1 企业亟需提高“用云”性价比

随着企业数字化转型的需求增加、市场竞争的加剧,企业需要将业务和数据迁移到云上,以实现更高效的生产和服务,以适应市场的变化。所以我们也观察到越来越多的企业开始上云,然而上云的门槛并不低,需要考虑的东西非常多,比如技术能力、安全合规风险、成本费用、用户体验等,很多企业 CTO 表示,“想上云,但是有心而力不足”,大多企业目前提出了亟需降低云服务使用门槛、提高“用云”性价比的需求。

为了提高企业云服务使用的性价比,亚马逊云科技为用户提供全面和深入的算力支持,提供包括 Intel、AMD、 英伟达和自研的 CPU 及加速芯片产品,这其中最值得一提的就是亚马逊云科技的四个自研芯片:Nitro、Graviton、Inferentia、Trainium。

Nitro 是亚马逊云科技的第一款自研芯片产品,Nitro 主要有三个亮点:第一,做了高度轻量化的虚拟化;第二,实现网络层面的数据通信和存储的隔离;第三,实现了硬件级别的加密。有了 Nitro 之后,亚马逊云科技能够大大增强 EC2 整个实例应用的安全性,每个单元可以独立发展,也确保 EC2 所有实例运行的稳定。   因为 Nitro 的出现,亚马逊云科技大大降低了推出一个新 EC2 实例工作的复杂性,使得其保持一个非常快的增长的速度,进一步降低客户成本,从而帮助企业达到降本增效的目标。最新一代 Nitro V5 芯片相比之前的芯片性能有大幅的提升,包括更快的转发率,包括更低的延迟,每瓦特性能提升 40%。

基于 ARM 架构的通用处理器芯片 Graviton 自 2018 年起,亚马逊云科技陆续推出三代 Graviton 服务器芯片,在去年的 re:lnvent 全球大会上,亚马逊云科技推出了自研的、基于 ARM 架构的高性能计算服务器 CPU 芯片 Graviton3E 芯片。纵观 Graviton 系列芯片的升级历程,Graviton3 计算性能提高 25%,浮点性能提高 2 倍,加密工作负载性能加快 2 倍;Graviton3E 特别关注向量计算的性能,跟前一代相比高 35%,这个性能提升对于像 HPC 高性能计算这样的应用来说是非常重要的。

从具体案例来看,在 HPL(线性代数的测量工具)上 Graviton3E 性能提升 35%,在 GROMACS(分子运动)上性能提升 12%,在金融期权定价的工作负载上性能提升 30%;同时,Graviton3E 和类似的 X86 的 EC2 实例相比,Graviton3E 还能节省 60% 的能耗。

如今 Graviton 系列芯片的优秀性能表现已经得到了充分验证,本届峰会上,陈晓建讲到的世界一级方程式锦标赛(下文简称“F1”)案例便充分体现了亚马逊云科技在算力资源、数据存储方面的能力。F1 利用 Graviton3 运行空气动力学模拟,可以用比以往快 70% 的速度开发新一代赛车,赛车压力损失可以从 50% 降低到 15% ,这使超车更容易,为车迷可以带来更多赛场的缠斗。此外,F1 通过 5000 多次单车和多车模拟,收集了超过 5.5 亿个数据点,帮助他们进行下一代赛车的优化。用 F1 团队表示,“Graviton3 让系统性能快了 40%,可以晚间运行模拟,第二天早上就能得出结果。”

在机器学习技术探索赛道中,目前亚马逊云科技已经发展出三代不同的机器学习芯片。在训练方面,亚马逊云科技先后推出的加速芯片 Inferentia 和 Trainium 覆盖了训练和推理的场景,能为企业提供最佳的性价比。因此,许多领先的 生成式 AI 初创公司,例如 AI21 Labs、Hugging Face、Runway 和 Stability AI 都选择 Inferentia 和 Trainium 作为他们整个研发和应用的平台。

在机器学习训练中,最重要的指标是训练效率和性价比。以 HuggingFace BERT 模型为例,基于加速芯片 Trainium 的 Trn1 实例的性能表现非常不错,从训练吞吐量角度看,其与同类型 GPU 实例相比,在单节点情况下,可实现 1.2 倍吞吐量的提升;在多节点情况下,实现 1.5 倍吞吐量的提升;从成本角度,单节点实现了 1.8 倍成本降低,集群的成本降低了 2.3 倍。

随着模型越来越复杂,很多时候靠一个单点的计算训练是无法满足用户的需求,在很多时候都需要一个分布式的训练,比如需要非常大规模的集群,通过 Trainium 便可以构建一个超大的集群,它可以有 3 万张的 Trainium 芯片,使企业可以获得云上 6 ExaFlops 的超算级性能。这背后涉及很多创新,比如更快的 EFA 网络以及 PB 级别的无阻塞网络互联等。

在机器学习推理中,推理往往要考虑延迟和吞吐,企业需要更高的吞吐力来带来更优的性价比,但是往往更高的吞吐率会带来更高延迟,所以开发者往往要在延迟和吞吐中权衡。Inferentia2 的设计就考虑到了兼顾吞吐和延迟的优化,如果拿一个基于 Inferentia2 的实例做测试,以自然语言处理领域常见的 BERT 模型为例,在 Inferentia2 上可实现高达 3 倍的吞吐提升,8.1 倍的延迟降低,4 倍的成本节约,使得企业开发者二者兼而有之。

另外值得一提的是,Inferentia2 在大语言模型中的表现也非常的突出。拿一个 OPT 模型来做测试,中等规模的 OPT 模型 OPT-30B 为例,相较于通用的 EC2 GPU 实例,Inferentia2 可实现 65% 的吞吐量提升,推理成本可降低 52%;660 亿参数级别的 OPT-66B,通用 GPU 实例已经显示内存不足的情况下, 而在 Inferentia2 上还可以实现每秒 351 个 token 数的吞吐量。

2 “AI 创新”使算力需求井喷、运维复杂性增加

随着 AI 大模型的发展,大模型应用规模呈爆发式增长,加速了未来计算时代的来临,引发了新的生产力革命,但同时也导致算力供不应求,在这个过程中,算力直接反映了数据处理能力的强弱,用户不仅需要更高性价比硬件的解决方案,他们还需要云厂商提供高度弹性化的伸缩。与此同时,巨大算力的增加,使企业云运维成本大大增加,如何降低云运维的复杂性也是企业目前面临的难题。

为了应对弹性算力的需求,亚马逊云科技提供超过 600 种不同的计算实例,处理器、存储、网络及各种周边服务均可与计算很好地结合,以积木的方式形成丰富的、灵活的计算实例资源,满足多种不同算力要求。

要知道,从存储层面,当数据规模达到 PB、EB 级别时,数据的存储方式非常重要。用户的数据存储可分为热、温、冷、冻四种类型,每种类型的存储成本和性能不同,都需要平衡。所以,亚马逊云科技提供多达八种的存储级别,包括高性能计算、机器学习和通用计算等,企业根据需要选择最合理的存储级别。

这其中最具有代表性的案例就是《阿凡达》的制作公司 Weta Digital,其在开发《阿凡达 1》时,他们自建了一个占地 10000 平方英尺的机房,构建 4000 台物理服务器和 35000 个处理器核心。然而,在开发《阿凡达 2 – 水之道》时,他们原有的集群已经无法满足需求。于是,亚马逊云科技为 Weta Digital 提供了从基础架构算力资源到云上制作堆栈、机器学习堆栈的一系列服务,Weta Digital 使用了包括 GPU 实例和 Spot 实例在内的多种计算实例以提供强大的伸缩性和优秀的性价比。

然而对于亚马逊云科技来说,仅仅对企业进行多种多样的芯片和高伸缩性的资源供给是远远不够的,亚马逊云科技还为企业提供了 Serverless 来降低云运维的复杂性。亚马逊云科技在 2014 年发布 Lambda 以来,已经相继发布了 105 多种 Serverless 新技术,包括解决 Java 应用冷启动问题的 Lambda SnapStart、可视化编辑器 Application Composer 等。用户可以根据应用的类型来选择不同的弹性和计算颗粒度。

全托管的 Serverless 使得开发者可以专注于业务开发,而不是基础设施的运维,也让系统能很容易的实现快速伸缩。为此,陈晓建在峰会上特别举了一个 Second Dinner 打造年度最佳移动游戏《Marvel Snap》的案例。《Marvel Snap》被 Second Dinner 工程副总裁称为“这是我们有史以来运营过的最顺利、最成功的游戏,正是因为我们选择了亚马逊云科技”。

Second Dinner 采用亚马逊云科技的 Serverless 架构来开发、构建和运行 Marvel Snap 游戏。整个游戏没有使用任何 EC2 计算实例或容器,而是由事件驱动架构实现。这种方法不仅帮助用户节省成本、加快应用开发速度,还减少了安全方面的隐患。亚马逊云科技的 Serverless 后台架构为其提供了完整的功能、安全和资源管理。最终,Marvel Snap 在启动时没有出现任何后端错误事件,这在游戏行业是前所未有的。此外,Marvel Snap 的开发人员在系统非常早期的测试阶段,就已经通过 Serverless 实现了每分钟 14 万请求的压力测试,要知道,这在云主机的时代是无法实现的,而这在亚马逊云科技的帮助下实现了“不可能”。

3 企业正在把握全球性机遇,追求多元化市场

放眼全球企业上云现状,当下大多数企业只是简单地将原来的系统搬到云上,尽管降低了成本,但并没有完全开发出云上的潜力。搬到云上并不算是真正的“上云”,最终还要让企业系统和业务在云上跑起来才是硬道理。很多企业渐渐的也意识到了这个问题,所以来自全球各地的企业上云需求和企业业务出海热对云厂商提出了更高要求,这就不仅需要云厂商的业务服务范围覆盖全球,同时还需要能够快速进行部署、高可用的服务及相关业务对于各个国家和地区的业务合规需求。

陈晓建在本届峰会上表示,全球布局已经成为很多企业的战略,然而云厂商想要完成全球布局一定需要满足企业对云服务的三个要求,即“无处不在的云服务”、“快速部署稳定系统”、“提供安全可靠的全球基础设施”,他通过亚马逊云科技已经在过去验证过的成功案例举证来验证自己的观点。

关于第一个要求“无处不在的云服务”,让创新快速抵达每一个角落是亚马逊云科技的使命。陈晓建拿 OPPO 举例,OPPO 的手机业务遍布全球,拥有数百个云上 VPC 和本地资源需要连接,由于不同国家有不同的安全合规要求,这增加了全球组网的难度,OPPO 希望全球业务独立运作,实现区域合规自治,同时拥有统一的管理。于是 OPPO 选择通过使用亚马逊云科技的 CloudWAN 广域网服务,通过本地网络提供商连接到亚马逊云科技,并通过中央控制面板和网络策略在几分钟内建立覆盖全球的专用网络。同时 OPPO 借助完整的网络视图,可以直观地了解整个网络的运行状况、安全和性能。另外值得一提的一个案例是,AXIOM 使用 Amazon SnowCone 来支持太空实验,成功环绕地球 240 次。目前亚马逊云科技的技术已经可以在太空这种极端环境中收集、处理数据,并做出实时决策。

关于第二个要求“快速部署稳定系统”,亚马逊云科技每个区域都由多个可用区组成,单一可用区的故障会影响其他可用区的业务,但通过解耦控制面与数据面,可以提高整体稳定性。蜂窝架构将系统分割成微小、独立、隔离的单元,有效控制故障影响。随机分片进一步优化蜂窝架构,通过随机分配客户访问,使单个单元故障不影响整个系统。我们还通过运营模型和部署机制保证云的弹性,并使用 COE 纠错流程防止问题再次发生。

拿中集集团来举例,中集集团使用亚马逊云科技的服务实现了 82 个企业级应用的上线,包括 SAP、仓储系统、CRM、SRM 和费控系统等,并实现了 20% 的成本节约。原 SAP 系统存在延迟问题,需容灾,造成资源占用。亚马逊云科技为其设计了新一代 SAP 架构,应用和数据库在同一可用区,延迟极低至 0.1 毫秒以内;容灾方面,RPO 为 0,RTO 不超 15 分钟,资源成本下降 18.7%。这套全新的 SAP 架构让中集集团获得了更强大的风险控制能力,业务连续性得到保证。

关于第三个要求“提供安全可靠的全球基础设施”,亚马逊云科技几乎满足全球所有国家和地区的合法合规的要求。比如生物医疗、联邦认证以及金融等行业,又比如 HIPAA、FedRAMP 和 PCI 这样高标准的合规要求。拿全球电子支付终端领先供应商 PAX 百富来举例,其在迁移多个重要 SaaS 应用至云上时,发现多供应商的安全服务标准不统一,无法满足支付安全要求,且难以集成和管理。亚马逊云科技便为其提供了安全合规服务(如 Amazon CloudHSM、Security Hub)以帮其保障用户支付信息安全和业务安全,满足 PCI 合规要求,并支持国际业务拓展。使用亚马逊云科技的产品使百富的产品交付周期缩短 40%,降低架构搭建及运维压力,节省 20% 成本。

陈晓建提到的以上三个方面,对企业用云需求进行了完整概括,而这也是云厂商帮助企业降低用云门槛、实现云基础架构创新的重要发展方向。云厂商需要从区域覆盖、安全和技术成本等方面进行全维度的升级,提供更好的云计算产品和服务,来满足企业的“既要、又要”。

4 云厂商需要专注“创新”,摆脱基础架构束缚

目前企业愈加难以满足日益增长的客户对快速、可靠和安全服务的期望,在提高自身系统的处理能力和存储能力的过程中,面对着巨大的算力需求和成本过高的可伸缩且安全的 IT 基础架构。

云计算基础设施的稳定和可靠,是云厂商的核心竞争力。然而,云计算作为数字产业的新基建,面临着行业高速增长的机遇,同时也在诸多领域存在着挑战,比如 AI 就是一次巨大的浪潮,在全球范围内都带来了巨大的市场机遇和发展潜力,但目前云基础架构还面临着把数据留在本地、延迟和带宽问题和连接稳健性等问题。

如果上升到云计算整个领域的发展的探讨,站在终端用户角度去看,在使用产品的过程中,用户实际更关注的是使用体验,当前基础设施要满足用户顺畅的体验需求,即算力喷发下产生的需求,需要在数据存储、数据节点通信及指令调度等层面进行一定的创新;站在企业开发者的角度去看,高效开发、低成本运维是开发者最关注的问题,在云基础架构体系中,工具链的使用、性能调优方式、性能工具的创新是未来主要发展点。此外服务的部署、管理、跟踪、调试等各个环节管理和运维工具的创新,以及企业如何降低运营成本也云计算厂商持续研究并创新的课题。

所以,未来只有软硬一体的生态化发展,才能帮助行业更好地完善基础设施,从而为企业数字化转型、降本增效的大目标实现保驾护航,而这一点亚马逊云科技做到了。亚马逊云科技的网络安全芯片 Nitro 系列、服务器芯片 Graviton 系列、人工智能(AI)推理芯片 Inferentia、AI 训练芯片 Trainium 系列的四大自研芯片业务线,从高性能计算、至广至深的云计算实例选择、存储、网络安全、可靠等方面都显示出了绝对的性价比及绝对优秀的能力。

同时,我们从亚马逊云科技的每一个实例与案例中也可以看到,亚马逊云科技这些年来从技术上做的创新与帮助全球范围内的客户完成技术创新,为的就是突破当下云基础架构的“束缚”,不断探索新的云计算技术和应用模式,实现业务创新和发展,这为行业内的其他厂商起到了“带头羊”作用。希望亚马逊云科技在未来可以与全球更多企业共同推动云计算的发展,为行业发展不断注入新动力。




点击下方视频可以观看“2023 亚马逊云科技中国峰会”亚马逊云科技大中华区产品部总经理陈晓建的演讲全程视频回放。

文章引用微信公众号"InfoQ",如有侵权,请联系管理员删除!

博客评论
还没有人评论,赶紧抢个沙发~
发表评论
说明:请文明发言,共建和谐网络,您的个人信息不会被公开显示。