大模型已经成为了各个应用领域的标配,而支持大模型训练和部署的 AI 基础设施也变得越来越重要。
为了保障大模型的成功落地,需要构建起全栈的 AI 基础设施,包含 AI IaaS 和 AI PaaS,其中 AI IaaS 提供海量的算力和资源调度、任务管理的能力,解决资源效能的问题。AI PaaS 为大模型提供并行策略和优化过的环境,覆盖训练的全生命周期,解决开发效率的问题。
为了让大家更全面地了解 AI 技术的前沿发展趋势及技术实践,百度智能云团队特推出《大模型时代的 AI 基础设施——百度 AI 大底座》系列云智公开课,该课程围绕“云:AI 算力构建”、“智:AI 框架和 AI 中台”、“实践:大模型训练实践”三大主题展开,由多位专业大咖倾情打造,揭秘核心技术,直击行业痛点。
过去一个月,第一模块“云:AI 算力构建”的四讲课程已上线直播,为大家陆续剖析了《大规模 AI 高性能网络的设计和实践》、《GPU 容器虚拟化新能力发布和全场景实践》、《面向大模型的存储加速方案设计和实践》、《向量检索在⼤模型应⽤场景的设计和实践》。接下来的一个多月,我们将继续围绕“AI 框架和 AI 中台”、“大模型训练实践”两大模块进行深度探索:
了解飞桨核心分布式训练技术以及在大模型训练场景中的应用;
了解如何根据实际场景选择合适的飞桨分布式训练技术。
了解大模型推理的需求、难点、应用场景;
了解大模型推理加速的常用方法、加速原理和关键技术。
了解大模型技术发展趋势;
了解大模型训练推理的主要环节及挑战;
了解什么是企业级大模型 LLMOps 工具链和基础设施;
了解百度 AI 大底座中的文心千帆大模型平台的核心技术。
了解不同大模型对基础设施资源选型和规划的要求;
了解在百度百舸平台中如何进行环境搭建和使用;
了解训练过程中典型故障处理方法和性能调优技巧。
第五讲课程《飞桨大模型分布式训练技术》上线时间为 2023 年 7 月 19 日 19:30,目前课程报名通道现已开启,立即点击【阅读原文】进行报名,还有机会抽奖赢取周边大礼哦!
文章引用微信公众号"InfoQ",如有侵权,请联系管理员删除!