万字长文，当机器人拥抱大模型

2023-07-02 16:02 156 0

经过半个多世纪的发展，今天的机器人产业也许正迎来仰望星空的那一刻。

文｜韩峰涛

来源｜授权转载

封面来源｜IC photo

文中所有图片均来自知乎原文

前言

机器人行业的挑战

研发能学习了解这个世界并能操控其中物体与世界进行交互的机器人，一直是机器人领域最重要且至今尚未完成的挑战。

过去数年里，机器人产业曾被无数挂着AI旗号的公司“赋能”过，但传统AI并没有那么智能，训练成本高，泛化能力弱，除了在机器人视觉（Robot Vision）领域（严格意义上应该是CV领域而非机器人领域）有较多应用之外，在机器人这样动作连续且复杂、有较多物理交互和操作因果性的领域落地情况并不乐观。

大模型在自然语言连续对话、通识理解、少样本/零样本学习等能力方向的突破，使得机器人在软件层面终于看到了变革的曙光。

当前机器人的局限

虽然被冠以机器人之名，但是现在的机器人跟科幻电影里无所不能的机器人还差距甚远，更客观的来讲，现在的机器人更偏向是一种可编程的专用设备。

机器人在人类社会的渗透率仍然很低，以使用最广泛、渗透率最高的工业机器人为例，2022年中国一共销售约30万台机器人，总体保有量在150万到200万台之间。而中国的制造业产业工人约有一亿人，通常情况下一台机器人代替0.5~2个人，取平均数1的话，工业机器人的总体渗透率在2%左右，这意味着绝大部分工厂里的生产工作仍然由人工完成。

在商用和服务领域，机器人的渗透率更是低到可以忽略不计。

为什么机器人这么火，但是落地的应用却那么少呢？为什么机器人的销量总是上不去？

机器人没有获得更大规模的应用的原因分析

抛开价格因素，目前机器人应用少、可用性差的瓶颈主要在于软件系统，即现有的机器人应用软件还不能充分发挥机器人现有机能。虽然目前机器人硬件性能距离“终结者”仍然有巨大的差距，但是整体硬件机能已经达到了很不错的可用水平。

机器人是典型的机电软一体化产品，软件与硬件是相互限制又相互促进的矛盾体。

机器人机能提升可以带来更好的性能，更好的性能支持更强大的软件，更强大的软件支持更多应用，更多应用扩大市场促使机器人厂商研发机能更强大的机器人，由此机器人产业才会步入良性的发展循环。

产业发展的正向循环

大模型的出现，补全了让机器人产业从1%到10%跃升的技术基础，这也是业内为何看中机器人+大模型的主要原因。

大模型能做什么

本节是对当前大模型在各领域能力的一个概述，熟悉该内容的读者可以直接跳到下一节。

之前被问起AI在机器人领域的潜力时，一直表达的观点是AGI短时间内还很难实现，AI只能用在一些特定垂直的机器人领域上，未曾想会被如此迅速的打脸。

ChatGPT给出的大模型定义是：

A large model refers to a machine learning model with a significant number of parameters and high computational resource requirements, capable of handling complex tasks and achieving superior performance.

即具有大量参数和较高计算资源需求，用于处理复杂任务并取得优异性能的机器学习模型。GPT、BERT都属于大模型的范畴，具体到多少参数才是大模型没有明确定义，通常考虑具备1B（十亿）以上参数时可以称之为大模型。

大模型在多个领域展现出来令人印象深刻的能力，譬如：

在自然语言处理领域，引爆全球关注热点的ChatGPT可以跟人流畅的聊天、撰写各类专业文章、理解输入的段落并给出各种分析，编程各类程序代码、辅助查找bug、制定会议议程，甚至你还可以跟它探讨人生的意义。此外，ChatGPT正在支持越来越多的插件，输出内容也不再局限于文字格式，合理使用插件可以大幅提升ChatGPT的输出效率。在网上有大量关于ChatGPT的介绍资料和教程，在此不再赘述。

在办公领域，微软的Copilot，支持Excel、Word、PPT、Outlook、Teams、OneNote，可以极大提高工作效率。譬如在word中，你可以让Copilot根据主题要求自动生成文章，并根据反馈做进一步的润色。在PowerPoint中，可以根据给定的主题自动生成演示文稿的初稿，包括主题、布局、图片等，并可以针对每一页文稿进行直观的自然语言交流和修改，整个过程自动化程度非常高。在Excel中，Copilot可以自动生成特定要求的数据透视表，可以回答诸如“分析数据并列出三个关键趋势”这样的问题，可以分析某一类数据变化背后的原因。总之，Copilot的加入使得计算机可以自动完成很多基础文档工作，极大提高Office办公套件的工作效率。

以下视频来源于AI探索司

在图像生成领域，以Midjourney、DALL-E为代表的文生图大模型，可以根据输入的文字创建插图、设计产品以及产生新的业务创意图，使用合适的指令和参数组合，可以生成各种高质量的图片。

上图威尔史密斯掌掴库里斯洛克新闻实拍照片，下面三张是MidJourney生成的GoPro视角图片，咒语自寻

在教育领域，大模型会对以传授知识和技能为主的教育模式带来巨大冲击，因为未来每个人都会拥有一个存储了大量知识的智能助理，人们不再需要去记忆大量现存的知识内容，教育模式会向着培养更具创新、沟通、推理能力的方向发展。在具体落地层面，大模型可以化身成一对一的助教，因材施教在成本和效果层面终于具备了可行性。它可以根据学生的历史数据自动生成适合该学生的教学内容、题库等，并完成作业批改；可以阅读一本书并与学生探讨书中的思想与含义；可以作为外语老师跟学生对话并指出学生存在的语法或者发音错误。

【TED演讲】ChatGPT——面向学生和教师的惊人 AI 超级导师：https://www.bilibili.com/video/BV1AP411m77K/

从大练模型到练大模型

《On the Opportunities and Risks of Foundation Models》一文中给出了大模型时代使用AI解决任务的一般范式，即从基础模型通过精调生成任务/行业大模型。

使用多种模态数据训练出基础/基座模型，然后再微调应用到各种细分行业应用中去，变成行业大模型

大模型之前的AI模型多是面向特定领域单独训练的，新场景通常需要走一遍“数据收集--标注--训练（调参优化迭代）--部署--应用”等一系列流程，即使经验丰富的AI工程师也需要几天甚至几周的时间来完成，而训练得到的模型A适合于A领域，模型B更适合B领域，通用性并不高，快速部署能力很弱，在很多对时效要求高的场合（譬如需要频繁换产的工业现场、动态变化的商用/服务场景）就很难应用。

大模型的出现，让高成本（财务&时间）手工炼丹模式的垂直领域AI开发，变成“预训练大模型+特定任务微调”的形式，这种方式可以大幅提高模型的泛化能力，提高开发速度，在面向各种“精度”要求不高的场合时可以认为具备了一定意义上的通用智能。

“你是想告诉我们，一种没有记忆遗传，相互间用声波进行信息交流，并且是以令人难以置信的每秒1至10比特的速率进行交流的物种，能创造出5B级文明？！而且这种文明是在没有任何外部高级文明培植的情况下自行进化的？！”
------银河系碳基舰队统帅，刘慈欣《乡村教师》

在信息储存和传递速度上，硅基的计算机远超碳基的人类。

基础模型带来了“记忆遗传”，再加上硅基带来的交流速率的史诗级提升，使得这次由大模型带来的AI产业的进步将是革命性的。

当机器人拥抱大模型

AI是大脑，机器人运动控制器是小脑，机器人就是躯干，三者在一起才组成完整的机器人系统。

大模型给机器人带来了什么

进展最大也最有可能跟机器人深度结合的大语言模型LLM（Large Language Model），其主要特点和优势包括：

具备多个领域的基础知识
对自然语言具备较好的理解能力
基本可用的连续对话与持续交互能力
强大的零样本/小样本学习能力

把以上能力映射到机器人领域，大模型适用的机器人任务就包括：

任务描述
任务分解
程序生成
任务交互

以上能力合并在一起，就构成了机器人开发人员梦寐以求的愿望，即任务级编程/交互。

只需要告诉机器人它要做的任务是什么，机器人就会理解需要做的事情，拆分任务动作，生成应用层控制指令，并根据任务过程反馈修正动作，最终完成人类交给的任务。整个过程基本不需要或者仅需少量人类的介入和确认，基本实现了机器人自主化运行，无需掌握机器人专业操作知识的机器人应用工程师介入。

机器人的任务级编程

任务级编程或者任务级交互落地之后，以下场景将有可能变为现实：

要理解任务级编程在机器人领域的重要性，我们首先需要知道，当一个机器人从收到指令到实际运动起来，中间需要经过哪些环节，如何控制机器人完成任务所需的动作。

当前，机器人控制框架一般采用层级控制（Hierarchical Structure）方法，不同的文献会把机器人编程和控制层级划分为多个层级，譬如任务级、动作级、关节级，或者在《Robotics Modelling, Planning and Control 》里，分为任务级，动作级，初始级，伺服级等。

在层级控制的方法中，高层级负责任务定义和动作规划，低层级负责实时运动控制，如下图所示：

具备工业/商用/服务领域通用性的机器人控制软件（机器人大脑）有了实现的可能

机器人的未来将继续考验行业内外许多人的智慧与能力，但是在历史洪流的发展进程中，新的拐点或者机遇终将如期而至。

任务定义与描述（去接一杯水）；
把任务分解为动作（把从拿杯子到打开水龙头到接水的过程拆分成一个一个的细小动作）；
机器人工程师根据分解动作对机器人进行编程，生成代码（可以是C++、Python，也可以是自定义的机器人编程语言）；
控制-执行-反馈（传统意义上机器人控制的主要功能）；

在大模型之前，一般只有第四步的控制和反馈环节是由计算机自动完成，前面的任务定义、拆解和机器人运动代码生成主要是机器人工程师完成。众多的机器人应用工程师的主要工作就是理解任务，并把任务拆解成合适的动作，使用机器人编程语言完成机器人应用程序的编写、调优和部署。

大模型并不适合做底层精确的控制，更适合做相对模糊的任务级规划。通过大模型直接生成机器人应用级代码是目前看来技术储备最多，最有可能快速落地的方向。

例如，如果要求机器人去厨房接一杯水过来，那么仅仅是打开水龙头这一个子任务对机器人来讲就有很多挑战，水龙头的样式是多种多样，开启方式也不尽相同，机器人首先要能理解面对的是一个什么样的水龙头，该如何开启，开启到什么程度能兼顾接水速度和避免泼溅和溢出。这个对于人类来讲很简单的事情，在之前都是需要机器人应用工程师通过代码一行一行写出来的。而预训练大模型的通识理解能力和强大的零样本学习能力，非常适合生成动作级代码，指挥机器人的动作来完成任务。

当然，靠AI完全自主生成的机器人代码可能存在不完备、不安全的问题，这时候就需要人类介入（RLHF）进行确认、修改、调优等工作，通过AI与人类的配合，来实现机器人的低门槛使用与快速部署。

定义任务级API--设计Prompt让模型理解API--大模型生成程序↔人工修正--人工确认ok后执行

有关机器人任务级编程的更多介绍，这里还有一篇非常详尽的文章可以参考。

链接：

https://www.zhihu.com/question/58830644/answer/159511581

从工程师到用户

当大模型带来的任务级编程/交互在各个应用领域陆续落地的时候，机器人的使用者从工程师变成了一般用户。

大模型的few-shot和zero-shot能力，让机器人在面向各种各样新应用时，可以快速给出一个方向正确&基本可用的整体方案，而且不需要用户具备之前需要的专业机器人知识。

使用门槛的降低，是一个产品或一个产业走向大规模快速爆发的起点。

机器人是AI与物理世界的锚点

AI系统生成的指令，凡是需要与外界环境进行物理交互的，都需要机器人来完成具体的动作，机器人是AI系统落地物理世界的最佳载体。

我们生活在三维的物理空间，里面发生的几乎一切事情都需要与周围的事物进行各种形式的物理交互，而AI作为计算机软件系统，要想与外界交互，必须借助物理实体来完成。当年AlphaGo与李世石对战时，仍然需要人类代为执行移动棋子的动作，其实完全可以换成一个机器人/机械臂来代替这个人。

李世石与AlphaGo对战时，代表AlphaGo下棋的人可以换成机器人

任何一个系统对外界的影响程度取决于它的输出能力。

计算机系统的输出都是虚拟的，无法对现实世界产生物理的影响。

而机器人的输出包含了虚拟（与计算机同等）和物理两种能力。

机器人有更多类型的输出能力

多输入多输出能力是通用机器人平台的基础能力，也是机器人具备从事多种多样任务能力的硬件基础，也由此构成了机器人作为物理世界平台的基础。通常，平台化的产品具备如下特征：

基础功能（设施）足够完备
开放的架构和丰富接口（APIs）
完善的开发工具；

其中，基础功能足够完备是一个基础特性或者使能（Enabling）特性。

例如，早期的计算机能力只是计算器水平，只能进行简单的运算，即使有再开放的架构和丰富的接口也无法开发出视频聊天APP。机器人如果只有简单的抓取和移动能力，也无法完成更复杂的任务。

在多模态大模型之前，即使机器人已经具备了多模态的硬件能力，在软件层面仍然很难使用一个模型涵盖所有情况。比如对于传统NLP模型来讲，输入输出都是text范式，让只使用NLP模型的机器人“理解”不同的输入和输出组合能做什么不能做什么是一个非常困难的事情。

现在有了多模态大模型，机器人终于可以开始理解如何合理使用它的多种输出能力来更好的完成任务了。

因此，计算机是虚拟世界的通用平台，机器人是物理世界的通用平台。

当然语言大模型和图像大模型以及其他多模态大模型之间的知识如何影射、如何链接仍然是一个未能很好解决的难题，但是至少我们具备了实现这个愿景的技术基础。

面临的挑战

不确定的安全性

这里涉及的安全性包括两个部分，操作安全性与数据安全性，其中操作安全性又可分为任务级安全性与操作级安全性。

任务生成的安全性

这里的安全性，指的是大模型生成的任务动作是否能很好的适应新环境和新情境，不会对环境造成破坏或者引发安全性后果，本质上是模型产出的鲁棒性问题；

在实际环境中使用机器人的一个难点在于，机器人的动作会改变环境本身，而环境的改变又会影响机器人的下一步动作，能否在新的环境里更新任务并顺利执行到底，对于机器人能否被应用到非结构化场景中至关重要。

例如，有一个机器人在给厨房帮忙用蒸箱蒸馒头，蒸之前开蒸箱门往里面放是不需要考虑太多因素的，只要别发生碰撞即可。但是蒸好之后需要打开蒸箱拿出来的时候就需要考虑旁边是否有人，因为蒸箱打开的时候高温蒸汽喷出会对旁边的人造成烫伤，机器人是否能认识到这一点并在生成“打开刚刚使用过的蒸箱”任务动作时，考虑高温蒸汽对人的影响（没有人的话可以直接打开，有人走过来的话就要晚点开或者提醒人员离开一点）就是很基本的安全要求了。

“等人离远点再打开蒸箱门”或者“播放语音提醒人员注意高温蒸汽”这两个动作对于机器人来讲很简单，但是能否在合适的时候生成这两个动作指令，需要机器人具备生活的常识。

虽然大模型具备很强的通识能力，但是如何保证每一次生成的任务都符合彼时情境的安全规范，仍然是一个需要持续优化的问题。

操作动作的安全性

除了以上需要常识就能解决的任务生成问题，在很多需要专业技能的领域机器人还要关注细微工艺动作是否符合安全规范，譬如在机器人手术中，机器人生成的磨削骨头或者切割软组织的某个细微动作是否符合手术手法要求，是否会对病人造成额外伤害，也是需要慎重考虑的问题。

提高AI和机器人系统的安全性是一个长期过程，这有赖于从业者的不断努力和探索。

但是从工程化落地角度来看，我们要正确看待安全性问题，安全不等于绝对的无风险。

安全的另一种解释是“不存在无法承受的风险”。

想象一下，乘坐飞机出行安全吗？在路上飞驰而过的汽车安全吗？

如果过于强调安全问题，裹足不前，机器人就不可能获得大规模推广。

因此必须要设定一个合理的责任划分尺度，由机器人的设计者和用户共担风险，从社会角度承认利益与风险共存是机器人大规模推广的必备条件。

实际上这种形式在我们生活中随处可见。

全球范围内，人类司机每年因为交通事故杀死100万人；由于工作相关的意外事故和职业疾病导致的死亡人数约为300万人；因为医疗事故/错误的医生诊断或导致超过250万人死亡。

机器人+AI系统的引入会大幅降低各个行业的伤亡率，机器人并不需要完美，机器人只要做的比人好就行。

数据安全与信息安全

在训练大模型以及使用大模型的时候，不可避免涉及到敏感数据的问题，譬如用于训练的语料中存在敏感数据或者给到大模型的input中存在敏感数据。

数据与信息安全性是一个绕不开的话题，现在还没有形成统一的标准，如何处理高质量数据全面性与信息安全之间的平衡，这个问题需要留给从业者慢慢去解决。

但是从机器人应用大模型的角度来看，如果我们把开发目标从通用机器人AI转换为“具有通用性/强泛化能力的技能机器人AI”，事情就会变得简单一些。

我们希望的是通过大模型来代替一部分机器人应用工程师的工作，或者说期望机器人应用大模型具备焊接工、装配工、喷漆工、按摩师、外科医生的通用知识与技能知识，而这些人完成自己的工作，其实是不需要掌握国家敏感数据，甚至也不需要知道企业的敏感数据。

他们需要的只是通识与技能数据，大模型同理。

当然并不是说数据安全问题在大模型应用的过程中不重要，未来一个国家可能只会存在少数几个Foundation Model，从基础设施角度来看，数据安全当然非常重要，也是需要从业者付出努力去解决的问题。

但是从某个具体应用角度来看，至少目前为止我们无须过度关注数据安全问题。

高质量训练数据缺乏

机器人需要通过多种传感器感知环境状态，然后执行实际动作来完成任务，因此训练用于机器人的大模型需要用到大量机器人在真实世界中与环境进行交互的数据集。

相比图像和自然语言处理领域可以从网上大量获取训练数据或者通过人类标注快速低成本的获取数据，可用于训练机器人学会执行新任务新技能的高质量数据非常匮乏。主要原因有：

与CV和NLP相比，机器人执行任务通常需要花费更多时间，这导致收集数据的效率很低；
CV和NLP训练过程中只需要处理虚拟信息，而机器人训练过程中会对周围环境造成影响，可能会破坏环境、损坏任务对象，最终造成财务损失，而且这种损失在训练完成之前是不可避免的；
机器人保有量还太少，可用于收集训练数据的机器人就更少，进一步加重了数据收集的难度。

此外，考虑到机器人执行任务时，面临的环境和交互内容模态更多，更加复杂，因此需要的数据集规模也比CV和NLP领域要大，例如，最新的GPT-4刚刚能理解下图中展示的内容（当拳击手套掉落时，球会被弹起），业界已经开始用“恐怖”来形容GPT-4，但是这样的理解程度对于需要执行各种复杂物理交互的机器人来讲，只是基础要求。

通过仿真的方式可以快速、低成本的获得一些机器人训练数据，但是一直以来受限于仿真模型的精细度、物理模型准确度、感知数据的准确性等原因，仿真数据与真实数据之间都存在巨大的差异，使得在仿真环境中只能训练一些对精度要求不高或者弱接触的场景。虚实迁移（Sim-to-Real）的研究者一直在试图努力缩小虚实数据的差异，从而最终达到通过虚拟场景进行大规模的数据收集和训练的目的。

另外一个可能的方向是利用视觉与自然语言处理方向的成果，使用LLM自动生成用于训练机器人的数据集，从而显著降低数据获取的时间和财务成本。但是LLM自动生成的训练数据可用性如何仍然是一个未解决的挑战。

观察学习（Observational Learning）也是一个可能的方向，通过让模型观看人类教学视频的方式来学习和理解某些技能，但该项研究仍处于相对早期的阶段。

总之，在欠缺优质数据的大背景下，仿真数据、真实机器人数据、教学视频、自然语言数据都有可能对训练机器人基础大模型有至关重要的作用。

展望

对机器人行业的影响

与计算机、手机、汽车等行业相比，AI与机器人产业尚处于早期发展阶段，大模型的能力与机器人的能力其实还没有强关联，是传统意义上“完美机器人”的两个独立又关系密切的组成部分，类似于计算机的软件和硬件。

因此，在可预见的未来，包含AI和机器人的泛机器人产业圈，会分化为两类公司：

以机器人核心零部件、精密控制为核心的机器人公司，为行业提供机能强大、高度开放、成本可控的机器人标准产品；
以行业大模型应用技术解决某些细分场景/行业的机器人应用产品公司，基于大公司提供的基础模型+其在行业的Know-how，提供行业的整体应用解决方案（包括软件和硬件）；

在这个假设下，对于机器人产品的评价指标与定义即将发生变化。

就像汽车领域，一直以来汽车作为交通工具，其主要功能是把人从A点移动到B点，交通工具的主要关注点是操控性、通过性、底盘调教、质感。随着汽车电动化、智能化的发展，现在汽车更多关注传感器能力、自动驾驶水平、座舱智能化程度、甚至冰箱彩电等。车还是那个车，但是定义什么是好车的参数和指标发生了变化。

机器人同理，之前机器人关注精度、速度、振动抑制等等，未来可能更关注感知能力（多少种传感器）、安全性、操作简易化水平、环境交互能力、接口开放程度等。

我们经常说，机器人是一个软件产品，随着AI大模型的发展，机器人的功能越来越多，机器人软件化的定义将愈加明显。如果机器人公司没有强大的软件能力和服务，将无法直接与客户交流，无法获得宝贵的用户数据，最后变成一个组装低毛利、低门槛机器人的打铁公司。

以上言论可能显得危言耸听，但是有一点是确定的，即大模型会给机器人软件系统带来系统性的变革，不积极拥抱大模型的机器人厂家，就像当年没有积极开发自己智驾系统的传统汽车厂商一样，逐步在新的竞争中失去活力。

可以预见的是，之前面向固定领域的工业机器人、协作机器人、移动机器人的产品形态将无法满足未来更多样任务的需求，多模态大模型必然需要多模态（感知、移动、操作等）机器人。

有用的机器人≠完美机器人

AI大模型的惊人表现预示着AI产业走出了这两年由于高级自动驾驶、智能助手产业落地不顺导致的相对低谷期，开始重新向上，但是机器人+大模型还处在快速发展路上。

虽然行业市场规律我们无法避免，但是保持合理预期，能帮助我们少走弯路，加快落地速度。

过去数十年的经验表明，人们往往会高估机器人的能力上限，同时低估机器人下限能带来的市场空间。

与之有关的一些典型的问题是：

“你的机器人不能百分之百替代这个人的工作，我为什么要买它？”

“机器人的效率不如人工，从机器换人的角度来算账算不过来啊”

实际上，机器人在某些环节效率不如人类时可以用增加机器人时长来平衡，例如清洁、夜间作业、低频长时搬运等。很多化学、药品实验室正在落地复合机器人代替工程师进行自动化合成工作。具备高精度微操能力，二十四小时无休的机器人可以解放很多被困在此类重复操作场景中的高级工程技术人员。

在可靠谱预见的未来，绝大部分工作场景中机器人无法百分之百实现/复刻人的能力，但如果我们从少人化/提高人员工作质量的角度来看，只能实现部分替代人工的机器人仍然是个大市场。典型例子是酒店送货（外卖）机器人，虽然距离合格的酒店工作人员（答疑、送物、指引、清洁）仍然有巨大的差距，当前只是解决了给客房送东西这一个高频的简单问题，但仍然给酒店带来了成本节约和效率提升，使得这一类产品被几乎所有主流的酒店采用。实际上，现在入住一家主流连锁酒店，如果这家酒店没有机器人反而会觉得有点奇怪。

机器人+大模型将使越来越多类似酒店配送机器人细分场景的落地成为可能，而且未来具备多种机能的复合机器人将会比现在简单的移动机器人提供更多服务和可能性，机器人产业将迎来最大的一波发展浪潮。

对社会的影响

真正的进步来自于工作岗位的消灭。
-----曼昆《经济学原理》

毫无疑问，机器人+AGI会代替一大批初/中级内容生产者和低技能要求的工作者。

虽然很多人在说，新技术在消灭一部分岗位的同时，通常会带来更多新的工作岗位，但是这次可能真的不一样。信息技术的进步会带来更多的岗位类型，但是岗位绝对数量却会下降。

从目前的信息来看，机器人+AGI很大程度上属于劳动节约型技术，由于其本身的强大能力，与之有关的绝大部分工作都可以被其自身和机器人技术所消化（而不是像之前几次工业革命会产生众多的工作岗位需要人类去承担），这次技术进步带来的岗位数量将远少于被其消灭的岗位数量。

从更宏观的角度，可能会呈现更触目惊心的事实。日本作家新井纪子在2019年出版的《当人工智能考上名校》一书中，介绍了一个专门为考上东京大学而开发的AI机器人，从2011年开始到2016年，这个叫东大机器人的AI系统已经可以达到日本70%以上大学的入学要求。书中还介绍了随着AI的发展，有一半人将会失去工作。

但是，《当人工智能考上名校》一书出版于2019年，彼时的作者并没有预料到大模型的涌现现象，整本书中对于AI的威胁的描述主要体现在知识储备、搜索与匹配角度，而AI对于常识理解不够这个事情则被当成了AI在短时间之内无法超越人类的最大缺点，常识理解也是人类最重要的优势。

然而，就是这么一个给人类仅存的希望，在书籍出版的三年后，很大程度上已经被大模型推翻了，也就是说，人类除了在死记硬背的知识方面pk不过AI，在之前自以为有优势的常识、理解、推理层面，也出现了巨大裂痕。

马斯克在最近CNBC的一次采访中，被主持人问到：“当人工智能这项技术存在并且不断改进的时候，我不知道该如何给与孩子职业发展的建议。我很好奇，当你考虑给你孩子的职业生涯提供建议时，你会告诉他们什么是有价值的？”马斯克沉默了大约20秒，给出了这样的答案：

“Well, that's a tough question to answer. I guess I would just say to follow their heart in terms of what they find interesting to do or fulfilling to do. You know , try to be as useful as possible to the rest of society. ”

也许，这是用一种委婉的方式在表达，未来有99%的可能性你的孩子会被AI和机器人代替，但是我们无能为力。

大刘的短篇小说《朝闻道》里有这样一段对话：

“这个原始人仰望星空的时间超过了预誓阀值，已对宇宙表现出了充分的好奇。到此为止，已在不同的地点观察到了十例这样的超限事件，符合报警条件。”
。。。
。。。
排险者露出那毫无特点的微笑说：“这很难理解吗？当生命意识到宇宙奥秘的存在时，距它最终解开这个奥秘只有一步之遥了。”看到人们仍不明白，他接着说，“比如地球生命，用了四十多亿年时间才第一次意识到宇宙奥秘的存在，但那一时刻距你们建成爱因斯坦赤道只有不到四十万年时间，而这一进程最关键的加速期只有不到五百年时间。如果说那个原始人对字宙的几分钟凝视是看到了一颗宝石，其后你们所谓的整个人类文明，不过是弯腰去拾它罢了。”
丁仪若有所悟地点点头：“要说也是这样，那个伟大的望星人！”

机器人的未来如何将继续考验行业内外许多人的智慧与能力，但是在历史洪流的发展进程中，新的拐点或者机遇终将如期而至。

经过半个多世纪的发展，今天的机器人产业也许正迎来仰望星空的那一刻。