AIGC 是当前 AI 领域最热的技术话题,并在全球范围内掀起了一股热潮。可以看到,越来越多的企业开始重视 AIGC 相关技术创新和技术实践,并积极探索应用落地。有预测数据显示,到 2030 年,AIGC 的市场规模或将超过万亿人民币。
那么,AIGC 技术典型的应用场景有哪些?不同行业如何落地 AIGC 应用?最适合大模型的商业模式是什么?未来是否会“人人都是提示工程师”?近日,InfoQ《极客有约》邀请到了星汉未来联合创始人 &CPO 胡忠想老师,为大家分享 AIGC 浪潮下,企业应用及落地经验。
以下为访谈实录,完整视频参看:https://www.infoq.cn/video/w6IoL0J8OBlcCC28SoPB
姜雨生:首先有请胡老师做下简单的自我介绍,也请您给大家介绍一下星汉未来这家公司。
胡忠想:大家好,我是星汉未来的 CPO 胡忠想,主要负责星汉未来的产品。今天我想与大家分享我们在 AIGC 应用方面的见解以及目前的进展,同时,我也想给大家展示一些我们正在做的一些工作成果。
大家可能对星汉未来还不太了解,在这里我想简单介绍下我们公司目前的一些合作项目。
我们公司成立于 2021 年,是一家以技术驱动的专注于 Serverless 领域的公司。今年三月份,我们推出了一个“AIGC 应用市场”的产品。我们结合了自身的技术创新精神,以让更多人体验到 AIGC 技术的价值和影响力为目标,通过我们这个应用市场,大家可以直接亲身体验 AIGC 应用的能力。
星汉未来应用市场:
https://apps.galaxy-future.com/#/platform/explore&utm_source=c
姜雨生:最近一年,AIGC 技术在全球范围内已经火成“顶流”,您是如何理解 AIGC 的?为什么 AIGC 突然爆火?
胡忠想:AIGC 从今年 2 月份开始进入大众的视野,主要原因是 ChatGPT。ChatGPT 在 2 月份的时候月活跃用户突破了 1 亿,真正让 AIGC 走进了大众的视野。在过去,除了专业相关的人群,大多数人对 AIGC 和大型模型的了解相对较少。但是随着 ChatGPT 的爆火出圈,人们开始意识到 AIGC,包括大模型,已经发展到了非常高的水平,在机器学习和人工智能方面的技术应用有了显著的进展。
ChatGPT 背后的 OpenAI 公司也提供了 API,涉及文本、语音以及文生图多模态等领域的应用不断涌现。这使得更多普通用户能够见识并亲身感受 AIGC 的威力。我认为 AIGC 突然火爆的原因是因为它开始真正解决一些实际场景的问题,而不仅仅是停留在人工智能的层面。而之前的人工智能处于技术和工程的阶段,它隐藏在一些产品背后,比如信息流算法、排序算法以及机器学习、强化学习等,对于普通用户来说可能感受不到。这是我对这一现象的理解。
姜雨生:Stable Diffusion、ChatGPT 等现象级应用的出现,证明了 AIGC 的巨大潜力,有预测数据显示,到 2030 年,AIGC 的市场规模或将超过万亿人民币。这一数字符合您的预期吗?如此庞大的市场规模,给各方参与者带来的机遇与挑战是什么?
胡忠想:根据我的理解和分析,如果将 AIGC 市场从国内扩展到国际范围,我认为之前的估计还过于保守。AIGC、大模型在市场上受到了广泛关注。除了 OpenAI 最早提出这一概念之外,微软和谷歌也纷纷加入,并将其能力集成到自己的产品中。在过去几个月里,国内的 BAT(百度、阿里、腾讯)以及其他一些厂商也宣布自己拥有 AIGC 大型模型能力。这表明人们非常重视 AIGC,因为它能够提高生产效率并创造价值,所以吸引了如此多的参与者进入市场。
我预计到 2030 年,AIGC 市场的规模肯定会超过一万亿元人民币,因为它已经具备了爆发前夕的特征,并且已经出现了实际可商业化的应用。
我认为这个市场涉及几个层次的参与者。首先是一些大型巨头,比如百度、阿里等国内大公司推出了自己的 AIGC 应用,主要是在机器人领域。同时,国外的谷歌和微软也深度整合了他们的产品,并加入了 AIGC 能力。
其次,还有一些独立的大型模型服务提供商,他们提供 API 能力。例如国外的 OpenAI 和国内的 MiniMax、ChatGLM 等,他们提供了基于大型模型的 API,用户可以在其基础上构建自己的应用。这些服务提供商主要依靠计费模式,如按 token 计费,以覆盖算力成本并实现盈利。
最后,基于这些基础的大型模型 API,不论是在文本对话领域还是多模态领域都可以构建成熟的应用。例如,针对个人用户的 Midjourney、Stable Diffusion,让普通人只需输入合适的提示词,就能绘制出专业图像的软件。此外,Adobe 在其 Photoshop 中也加入了 AI 能力。国内的美图也开始推出相关应用。这些成熟的 AIGC 应用表明市场已经处于爆发前夕。随着 API 能力的提升和市场的成熟,这个领域的能力将越来越强,最终产生的爆发效应也将更加显著。
姜雨生:当前 AIGC 还处于早期发展阶段,也有很多声音质疑落地难,根据您的观察,AIGC 技术典型的应用场景有哪些?不同行业如何落地 AIGC 应用?落地成本如何?
胡忠想:AIGC 技术落地场景非常丰富,包括我们日常使用的智能客服和 AI 绘图等产品。以前,在搜索产品或在淘宝购买商品时,我们需要进行搜索,并依赖于排序算法和机器学习进行优化排序。然而,这些算法可能无法准确理解我们的真实需求,无法返回真正需要的结果。AIGC 通过学习能够理解我们搜索背后的目的,给出真正对我们有价值的结果。这一突破性进展将产生巨大影响。例如,一些巨头如微软和谷歌也希望将 AIGC 能力整合到他们的搜索引擎中。与以往的搜索方式不同,这些搜索引擎将通过 AIGC 整理出符合人类思维的结果,提供更好的用户体验。
在实时翻译领域,AIGC 能力将更加突出。以前的翻译准确度完全依赖于样本和初始数据集,而现在可以实现纯粹的实时翻译,并且达到人类或专家水平。在图像领域,例如文生图,已经有一些公司开始将一定比例的基础图案交由 AIGC 应用生成,而无需人工绘制,这大大提高了效率。在视频领域,虽然还处于早期阶段,但已经有一些公司在探索,如根据文字生成相应的视频,实时识别视频内容并进行字幕生成和翻译等应用场景。
从文字到语音再到图像和视频,这些应用的成本必然越来越高,因为训练和算力成本都非常昂贵。例如,之前提到的 OpenAI 的 GPT-3 模型,需要接近上万张显卡,并且一次训练的成本可能高达数百万美元,对于普通公司来说,这是非常昂贵的。然而,如果只是针对特定领域进行模型微调,训练成本相对可控,参数和数据集的需求也不大。
最终的效果取决于特定行业的落地场景和专业度。在法律等垂直领域,数据量相对较小,最终产生的效果对于该行业已经足够好,并且成本可控。因此,对于不同的应用场景和专业度,需要权衡所需的效果和成本,包括参数数量、数据集大小和训练时间。
姜雨生:目前很多公司都在布局 AIGC,星汉未来在 AIGC 方面取得了哪些进展?为什么会关注这一领域?
胡忠想:我们公司专注于算力优化和提供 Serverless 技术,以帮助中小企业和个人开发者发展业务,而无需管理算力和相关运维,从而节省算力成本和运维成本。AIGC 与这一趋势非常相似,因为在 AIGC 应用的发展中,需要大量的 GPU 算力。对于中小型开发者来说,如果他们想开发 AIGC 应用,需要管理这些算力的部署和运维。这与我们目前正在做的工作非常契合,我们正式专注于为 AIGC 应用提供算力优化。
我们创建应用市场是想让更多普通用户能够体验 AIGC 应用。因为想要体验 AIGC 应用,需要部署一个开源模型。这个模型可能效果很好,可以提供很好的问答体验、优化和文案编程等。但是对于普通用户来说,想要体验这些应用,需要具备两个条件:一是将模型部署起来,二是购买和管理算力。
对于中小型开发者来说,这方面是非常复杂的工作。而我们的技术可以简化这一过程,对于普通用户来说,他们只需要点击应用就能快速完成安装,然后立即体验。
不论是绘图应用、聊天机器人还是某些专业领域的应用,比如根据文字生成 PPT、生成图表或总结 PDF 内容等,用户可以随时安装,随时体验,随时使用这些 AIGC 应用,并判断它们是否能为自己的工作或公司带来价值。
姜雨生:星汉未来应用市场里有多款 AIGC 应用,比如 AI 智能对话、AI 绘画、AI 编程等,您能简单介绍下这些 AIGC 应用吗?企业 / 个人用户如何使用?
胡忠想:我们的应用市场具有清晰的分类,用户可以在应用市场中找到 AIGC 文字、AIGC 语音和 AIGC 图像等常用类别的应用。此外,我们还提供 AIGC API,以满足企业和中小开发者构建应用的需求。还有一些企业应用和中间件功能也可在应用市场中找到。
我们还为各个领域选择了一些典型的应用,例如 AIBot(文字类别的 AIGC 应用),AIGC 的语音应用 SpeechGPT(可与机器人进行对话),以及 AIGC 图像类别的应用,例如 StableDiffDiffusion Pro(能根据提示词绘图)和 ChartGenie(根据自然语言输入生成柱状图或饼图等)。AIGC API 可供用户在其上构建自己的应用。此外,我们还提供常用的企业应用程序,如 WordPress 和文件管理系统,以及中间件服务,如 MySQL、Kafka 和 Redis。
我们的软件安装后不用再自己部署开源软件所需的算力,就可将应用部署起来。实际上,我们在云上购买了机器算力,并将应用部署在其中。安装完后,您可以打开应用并在其中体验应用的功能。
AIBot 应用利用开放的 AI 能力,可以调用国内的 AI 供应商提前训练好的数据和模型,以帮助你整理信息。以前像“三天走完五岳”这样的旅游策划肯定需要人工来做,但现在,AIGC 应用可以告诉您,“三天走完五岳”是非常困难甚至不可能的,因为五座山分布在不同的地区。
姜雨生:目前上线的哪些应用活跃度会比较高呢?
胡忠想:目前我们的主要应用面向普通用户。从目前的情况来看,有两类应用得到了广泛使用。一类是类似于 ChatGPT 的 AIBot 应用,它们能够理解自然语言和逻辑,并能回答用户提出的问题。这类应用在日常学习和工作中非常受欢迎,无论是用于文案的改进还是论文的润色和翻译等方面的需求都很大。
另一类应用是文生图相关的应用,许多人希望在自己的工作中使用这样的工具。这类应用更多地被某些专业领域的人使用,他们希望借助这些工具来生成设计或绘画,因为这些工具能够满足他们专业领域的需求,而又无需自己购买 GPU 服务器。
目前来看,这两类应用比较常见。然而,随着 AIGC 技术在更多领域产生更多价值,并且在一些垂直领域进行调优以及模型效果的不断提高,基于基础构建的应用会更多地涌现出来,可用性也将达到日常使用的水平,进一步丰富我们的应用库。
姜雨生:在实际使用产品时,特别是与 AIGC 这类大模型相关的日常开发中,我们常常对模型有一些特定要求。例如,用户可能希望使用 GPT-3 或 GPT-4 模型。企业上会不会有类似这种需求,目前有相关技术支持吗?
胡忠想:针对不同的模型,我们提供了相应的 API 支持,正如之前给大家演示的那样。我们的 API 可以用于部署各种不同的模型,甚至为企业提供定制化模型,并提供专门的 API 接口。我们的关注点主要是模型的部署以及在此基础上进行微调。核心是如何快速而准确地调度大规模的算力,并实时进行优化。
举个例子,当 GPU 的使用量较小时,能否快速缩减算力的使用;而在使用量较大时,能否弹性地调整算力分配。对于企业来说,在为用户提供服务的同时降低成本是非常关键的,而我们的主要目标就是解决这一层问题。企业可以通过调用我们的 API 来使用这些大模型,而无需自行维护背后的算力基础设施。
姜雨生:AIGC 领域下面,我们可能会提到另一个关键词就是 prompt engineer,在与生成式 AI 交互的过程中,如何编写我们的问题,其实也是尤为关键的,在这方面我们星汉未来的产品,是如何引导用户编写 prompt 的呢?对于用户实际提交的 prompt,又会从哪些方面进行优化呢?
胡忠想:我们在应用市场上架的大部分应用都是原生的,即将开源产品或模型部署为实际的应用供用户使用。对于用户提交的实际需求,通常不会进行修改,除非有特殊情况。当然,在一些常用的应用上,我们会提供教程,以帮助用户使用。我们的应用市场不仅提供应用下载,还提供应用预览和教程,其中会指导用户如何使用并分享经验。例如,对于 ChartGenie 应用,我们会提供教程,告诉用户输入什么样的提示词,以及应用会为其绘制出什么样的图像。
对于类似的 SD 应用,我们也会提供教程,指导用户如何填写提示词,包括正向或反向参数的使用等。此外,我们还有一个独特之处。因为 SD 应用在输入英文提示词时效果较好,但对于许多普通用户来说,可能不擅长清楚描述对应准确的英语单词。针对这个问题,在 SD 应用中,我们实现了自动将用户输入的中文提示词翻译为英文提示词,从而提高生成图片的效果。
姜雨生:目前的主流市场,包括 OpenAI、Azure OpenAI,目前都不是完全开放的状态,主要原因还是目前的算力和容量可能无法满足全部的客户使用,我们目前的产品上面,是完全开放的状态么,还是需要客户提交申请?我们的价格又是如何计算的呢?
胡忠想:以 AIBot 为例,我们对接的是商业 API。通常情况下,用户想要使用商业 API,需要拥有自己的密钥等信息。对于普通用户来说,申请这些东西其实是很困难的,尤其是对于非开发者而言。
我们帮助用户屏蔽了这一层复杂性。用户可以像使用普通应用一样使用我们的服务,而无需单独购买算力等。对于一些对外开放的应用,它们需要考虑背后算力的部署,即需要准备多少算力来支持服务。但对于我们来说,情况不同。我们底层基于 Serverless,只有当你使用应用时,我们才会申请算力为你提供服务,无论是 CPU 还是 GPU。当你暂停应用或者长时间不使用时,会自动降低算力分配,以避免浪费。因此,在应用成本方面,你无需担心,不需要提前囤积大量算力来提供服务。
姜雨生:AIGC 包括多种内容形式,比如文生图、语音生成、写作、编程等,当前 AI 在这些方向的生成效果分别是什么样的?有做过一些 benchmark test 么?您使用过哪些 AIGC 应用,能和大家分享下您的使用感受吗?
胡忠想:我们主要专注于应用市场,没有进行这方面的测试。不过,无论是国内还是国外,都有一些针对大型模型的成熟基准测试方法。最近出现了一个针对大型模型的排名,其中 GPT 4.0 排名第一,Claude 开源模型排名第二,然后是 GPT-3.5 Tubor。这些测试从多个方面对模型进行评估,包括图像生成、语音转写、编程等方面的准确性和理解能力进行评分。国内也有专门的测试集,用于评估国内大型模型的能力。
目前,在文本领域的自然语言理解和编程方面,AI 已经相对成熟,并且已经达到了很高的水平。据测试结果显示,在编程文本理解方面,AI 已经能够达到 70% 或 80% 的人类水平,已经取得了很好的效果。
在其他领域,例如视频方面,AI 的表现可能还有待提升,因为这方面的训练需要更大的算力和更大的数据集存储,所以目前尚未达到能够直接用于日常生产的水平。至于图像生成方面,基于我们的测试感受,我认为 AI 在该领域已经达到了相当高的水平。当然,在专业领域可能会有一些对细节的要求,此时进行二次修改可以取得非常好的效果。
姜雨生:最近,ChatGPT 突然上架苹果应用商店,让我们看到了 OpenAI 在商业化上的又一探索。目前 AIGC 已经达到大规模商业化的条件了吗?在您看来,最适合大模型的商业模式是什么?
胡忠想:我认为目前已经初步具备了商业化的条件,4 月 OpenAI 还需要排队才能接入,但现在已经不需要排队了,这表明他们已经准备好商业化了。他们还开始开发一些客户端,并逐步在不同国家的应用市场上架,证明他们的商业化流程已经走通。月活跃用户也在不断增加,这说明它不仅仅是一个智能问答工具,而是成为了一种必需品。MG 作为一家商业化公司,虽然只有 20 多个人,但他们的商业化能力已经非常强,这表明 AIGC 的应用已经走向商业化,处于初期阶段。
我认为最适合的商业模式有两种。一种是基于开源通用大模型,在此基础上针对专业领域进行微调,为垂直领域的客户提供服务。例如,在法律领域和医疗领域等提供专业模型,这些模型具有专业参数和数据集,并能切实产生实际价值。另一种是各种提高生产力的工具,像 MG 就是一个明显的例子,它具有创意和革命性的应用,完全改变了普通人对绘画难度的认识。以前人们可能认为普通人根本不可能画出那么专业的图像,无论是使用 Photoshop 还是其他工具。现在,你只需要学习如何使用提示词,就能画出精美的图片。因此,如果能在大模型之上开发出革命性的应用,将会带来巨大的商业价值。
姜雨生:如果说很多小公司规模不大,没有强大的算力来自主研发大型模型,那么它们是否能在这个领域进行创业呢?
胡忠想:我认为这是非常有可能的。就像当初 iPhone 问世时,人们对于 iPhone 的应用商店的理解并不深入,但随着越来越多的开发者逐步开发各种应用来服务于人们的日常生活,如今人们已经离不开这些应用了。类似地,如果将这些应用基于 AIGC 或 AGI 的操作能力进行进一步扩展,从而产生更大的价值和更优的用户体验,那么这个领域还存在着巨大的开发潜力。
姜雨生:大概是五六年前,当时很多人都提出了“人人都是产品经理”这个概念,希望大家都从事产品经理的角度去思考事情。未来是否会“人人都是提示工程师”?
胡忠想:Prompt engineer 是最近才出现的一个岗位,一些公司已经开始招聘这类工程师。我理解,这个角色实际上是基于对底层模型和大模型原理的理解,才能在这个岗位上做得好。因此,这个角色是非常专业的,不仅仅是懂得一些提示词之类的表面技能,而是需要相当专业的知识。目前来看,要具备这种能力的普通用户或想要从事这个领域的人,门槛是存在的。
就像“人人都是产品经理”这句话,虽然说任何人都可以参与,但这并不意味着每个人都能够达到产品经理的要求。同样,Prompt engineer 也并不意味着任何人只是给出一些提示词,就能够真正让模型发挥相应的作用,这需要专业的能力水平。因此,这方面肯定还是需要更专业领域的人来从事。当然,应用的趋势是对提示词的要求越来越低,降低普通用户的使用门槛。
姜雨生:当前的 AIGC 技术在安全和伦理方面可能存在一些争议,这是一个被广泛讨论的话题。最近,包括美国政府在内的各方都提出了与 OpenAI 等公司进行合作以解决这些问题的想法。治理方面需要考虑数据安全和使用安全等方面的限制。在企业应用 AIGC 技术的过程中,我们应该如何应对这些治理挑战呢?
胡忠想:首先,我们需要关注数据安全的几个方面。一方面是确保数据本身的安全,包括保护用户的隐私等方面。我们可以以三星公司的例子为警示,该公司的内部员工曾将公司数据意外暴露在公网上,可能是因为他们使用了 ChatGPT 等技术,而该技术本身并没有对数据施加限制。另一方面,一些欧洲国家已经开始对 ChatGPT 等技术进行限制,不允许使用,我国对 ChatGPT 也有一定的限制,这与当前全球范围内对数据保护的要求有关。企业应用 ChatGPT 等技术时需要考虑数据安全的要求。
其次,道德伦理也是需要关注的方面。目前可能尚未到达迫切的阶段,但一些有远见的人已经开始关注这个问题。例如,OpenAI 的创始人主动呼吁政府设立专门组织来管理大型模型的发展,以确保其进化方向符合道德伦理,避免产生违反人类基本道德伦理的知识或造成无法控制的后果。这是一个需要考虑的问题,尽管当前可能尚不构成问题。
姜雨生:未来在 AIGC 方面我们有什么样的规划吗?比如说会不会考虑帮助企业从 Prompt 到输入到输出再到模型定制化,做一些真正的企业定制化的应用等。
胡忠想:我们当前的应用市场主要针对那些满足刚需或真正对用户日常工作有价值的应用,以展示 AIGC 的能力。然而,对于开发者和企业而言,他们需要更专业的模型和定制化支持,特别是在处理大量用户和保证算力供应方面。
为满足这些需求,我们的下一个重点是为企业提供定制化模型的能力,同时利用我们的 Serverless 能力。企业只需提供数据和调用 API,模型将根据 API 调用提供相应的结果,无需担心模型部署和算力维护等方面的管理。这将成为我们未来关注的重点,同时我们也将致力于解决一些模型简化的问题。
姜雨生:随着 AIGC 应用领域的不断扩大,甚至可能在很多领域广泛应用 AIGC 之后,AI 和人类之间的交互关系将会是怎样的呢?我们会完全依赖 AI 的能力来完成日常工作吗?
胡忠想:我认为 AIGC 领域的广泛应用将会提升各行各业的工作效率并创造更高的价值。随着 AIGC 应用的不断发展和算力的增强,成本也会降低,我们能够像使用智能手机上的应用程序一样使用 AIGC 应用程序,使其成为日常生活中不可或缺的工具,并且用户体验将越来越好。因此,AIGC 肯定会给我们的日常生活和工作带来越来越大的价值。
关于 AIGC 与人类的关系,我认为它不会完全取代人类,但会减少低层次和重复性劳动,并提高效率。另外,AI 的发展方向应朝着对人类有益的方向发展,这需要整体上进行一些管理和监督。
姜雨生:AIGC 最主要的应用价值是降本增效吗?这类大模型具体会如何改变我们的工作状态?
胡忠想:刚才我们提到,AI 在某些领域已经接近甚至达到了人类水平的 60~70%。因此,在一些通用场景下,AI 可以解放人类的双手和大脑。自然语言理解能力可以帮助运营人员;编程理解能力可以帮助程序员;对于文生案和绘画能力可以帮助设计师和艺术家提高效率。当然,人们也担心 AI 是否会取代一部分工作。
我的看法是,AI 确实会减少一些基础性的工作,就像机械化生产线替代了一部分体力劳动者的工作一样。但是通过 AI 辅助,人类在其基础上创造更高价值或更优质的工作,实际上会促进工作的发展。如果你掌握这些能力,就不会被取代,反而能提高工作效率并创造更大的价值。
姜雨生:企业应用 AIGC 技术后,在招聘和人才规划上需要做哪些调整?AIGC 时代需要什么样的人才?
胡忠想:有报道称某家公司只保留了 20~30% 的设计师,因为他们只需要非常熟练的设计师在 AI 生成的图像上进行调优和优化。基础的草稿图和基本元素图已经不需要外包或初级技术人员来完成。这种情况在绘画领域和编程领域都存在。在软件开发领域,一些基础性的任务可能会结合低代码开发和自然语言理解的能力来实现。因此,企业对于外包绘画和编程领域的需求可能会减少,这两个领域的人可能会首先受到影响。
姜雨生,微软软件工程师,负责微软资讯业务与 GPT 集成,曾负责微软广告团队基础设施搭建与维护工作。
胡忠想,星汉未来联合创始人 &CPO。北航本硕,2012 年加入微博,2015 年作为技术负责人负责 S 级项目 Feed 核心业务的研发。2017 年作为技术负责人带领团队完成公司级 Weibo Mesh 平台的研发并推广到多个核心业务,使得微博成为业界领先的 Service Mesh 实践者。2018 年作为微博峰值热点应对项目的负责人,带领团队完成公司级热点应对联动机制的建设,保障了微博在后续多次热点事件中的稳定性。2021 年作为联合创始人,成立星汉未来并任 CPO。
你也「在看」吗? 👇
文章引用微信公众号"AI前线",如有侵权,请联系管理员删除!