Covariant：三个华人小伙创办的AI4Robot独角兽

2023-06-16 08:21 153 0

‍

来源丨石麻笔记（ID：gh_790f1bf734c0）

作者丨渣大米

题图丨摄图网

Covariant是一家人工智能机器人公司，致力于构建一个通用的人工智能，使机器人能够在现实世界中学习和操作，以协助人类完成繁重和劳累的任务，尤其是在仓储和物流行业中。

Covariant的四个创始人中有三位是华人，而且都非常年轻，另外一位创始人则是人工智能机器人领域大名鼎鼎的科学家Pieter Abbeel。和Cohere类似，Covariant也获得了一众AI领域大牛的投资，包括Geoffrey Hinton，杨立坤，李飞飞，Jeff Dean等。在今年4月披露的C1轮融资投资人里，比尔盖茨也位列其中。Covariant从2017年成立至今，累计融资2.2亿美金，是AGI领域最重要的公司之一。

在人类通往AGI的道路上，机器人通过与外界的交互而产生的体验和反馈是训练机器人大脑（AI系统）必不可少的环节。如同人类，小婴儿从最初只会看，到逐渐通过触碰、抓握、把玩、爬行、站立行走等动作与真实世界产生交互，更好的体验和理解外界世界，形成更完整的认知。Covariant的创始人也提到，创立Covariant的原因正是为了让机器人大脑（AI系统）能够走出实验室，体验更丰富的真实世界场景。

公司简介

Covariant 成立于2017年，总部位于美国加州硅谷，致力于构建一种通用人工智能，帮助机器人观察、学习和与周围的世界进行互动。创始团队来自于 Open AI, 加州伯克利大学人工智能实验室 (BAIR)。

Covariant现阶段的目标通过AI让分拣机器人更好的识别、抓取并放置任何物品，目前产品主要的落地领域为仓储物流、快递分拣自动化。在欧美多个国家落地部署，且稳定持续运行，官方合作伙伴包括工业机器人四大家族之一ABB和国际领先的仓储自动化系统集成商Knapp等。Covariant更远大的目标，是致力于行业机器人所需要的通用人工智的研究工作，用AI给传统工业赋能。

创始团队

Covariant的创始团队有四个成员，UC Berkeley机器人人工智能领域的知名教授Pieter Abbeel和他的三位博士生Peter Chen、Tianhao Zhang及Rocky Duan。Rocky Duan于2017年获得博士学位，Peter Chen和Tianhao Zhang目前是休学状态。这三位华人小伙年龄应该都不超过30岁。

张天浩（Tianhao Zhang，研究科学家，左一），段岩（Rocky Duan，CTO，左二），陈曦（Peter Chen，CEO，右二)，皮特·阿贝尔（Pieter Abbeel，右一）。

他们四人中有三人曾经在OpenAI工作过，Ricky Duan、Pieter Abbeel和Peter Chen在创立Covariant之前，都在OpenAI做研究科学家。

OpenAI在2021年解散了机器人团队，把资源集中在更容易获取数据的大语言模型领域。与之形成对比，Covariant则是倾注全部精力和资源将机器人从实验室带到现实世界中，让机器人在真实的工作场景学习和训练。Covariant的训练数据通过机器人与现实世界的交互获得，数据门槛更高，比竞争对手也有更大的领跑优势。

Pieter Abbeel是Covariant的核心人物，他是将深度强化学习应用在机器人方面的先驱人物，于2021年获得ACM 计算奖的荣誉。在获奖公告中，ACM 提到：「Pieter率先教会机器人从人类演示中学习（学徒学习）和通过自己的反复试错学习（强化学习），这为下一代机器人技术奠定了基础。」

（Source：https://people.eecs.berkeley.edu/~pabbeel/）

Pieter于1977年出生在比利时安特卫普，2000年获得比利时鲁汶大学电气工程学士和硕士学位，并在斯坦福大学获得计算机科学博士学位。最初，他打算攻读计算机科学硕士学位，但由于斯坦福大学进行了大量的人工智能项目，他决定留下攻读博士学位。他是AI大牛吴恩达的第一个博士生。在2008年完成博士学位后，Pieter成为伯克利大学电气工程与计算机科学系的助理教授。

Pieter Abbeel现为加州大学伯克利分校计算机科学与电气工程教授，伯克利机器人学习实验室主任、伯克利人工智能研究（BAIR）实验室的联合主任，他最出名的是在机器人和机器学习方面的前沿研究，特别是在深度强化学习（deep reinforcement learning）方面。他的实验室还推动了深度模仿学习（deep imitation learning），深度无监督学习（deep unsupervised learning），迁移学习（transfer learning），元学习（meta-learning）和学习学习（learning to learn）的前沿，还研究了人工智能如何推进其他科学和工程学科的发展。

除了科研之外，Abbeel还以联合创始人的身份创立了两家公司，covariant.ai和Gradescope（一个线上评分系统，目前被全球500多家大学使用）。在2021年，他加入了AIX Ventures作为投资合伙人。AIX Ventures是一家投资于人工智能初创公司的VC。此外，他还主持了每周播客Robot Brains，采访很多AI领域的科学家、创业者和投资人。

创业故事

在一段Covariant CEO Peter Chen的采访中，他讲述了Covariant的创业故事：

「在2016年，我们四个人正在加州大学伯克利分校的人工智能实验室和OpenAI进行人工智能研究。Pieter是机器人学习实验室的主任，也是我在伯克利的博士导师。Rocky、Tianhao和我在强化学习和模仿学习方面进行研究。当时，人工智能的最新进展开始使得机器人能够从自身的经验中学习到卓越的技能。但是当机器人在实验室学习时，它们的经验是简单和人为的，这限制了它们可以学习的技能范围。是否可能将这一进展超越实验室，在现实世界中取得类似的突破呢？

为了回答这个问题，我们在2017年创立了Covariant。推动人工智能快速进展有两个重要因素：一方面是提供给人工智能学习的经验，另一方面是人工智能架构方面的研究突破。

经验的关键：机器人必须在真实世界中进行学习，它们必须与人类相互作用的无限范围的物体进行互动，并执行人类执行的无限数量的任务。

架构的关键：真实世界的数据比实验室的数据要多样性更高，我们需要建立根本性的新架构，以从这样的数据中进行学习。

因此，在2018年初，我们开始了一段旅程，让机器人接触真实世界，并研究能够吸纳这些经验的新型人工智能架构（远比典型实验室经验更丰富）。」

投资人

2023年4月Covariant完成C1轮7500万美金的融资，这是对2021年7月8000万美金C轮融资的进一步补充，目前总融资已达2.22亿美金。本次融资由Radical Ventures和Index Ventures领投，CPP Investments和Amplify Partners跟投。此外，该轮融资还迎来了新投资者——比尔·盖茨、AIX Ventures和Northgate Capital。

在Covariant的投资人列表中，一众AI大牛真的非常吸引眼球。Google Brain的负责人Jeff Dean、斯坦福AI实验室的前主任李飞飞、图灵奖得主Geoffrey Hinton和Yann LeCun以及MIT CSAIL负责人Daniela Rus等十几位在AI领域举足轻重的科学家。

核心技术

Covariant的核心技术是一个被称作“Covariant Brain”的机器人“大脑”—一套可以使机器人看、思考和行动的AI系统。Covariant主要在研究如何让机器人抓取不熟悉的物品，了不起的一点是，它可以让机器人抓取几乎任何SKU或物品，无论形状、大小或包装如何。

Covariant应用一系列的人工智能技术，包括强化学习技术，让算法在不断的尝试与失败之中提高其可靠性。这有点像动物通过积极反馈与消极反馈来学习的过程。除了强化学习之外，Covariant公司研发的机器人，还结合了模仿学习（imitation learning）的技术，通过观察感知演示来学习，并且通过另一种元学习（meta-learning，即学会如何学习）的算法，来进一步理解。

为了保持技术上的领先优势，Covariant大部分研发工作都是保密的。根据一些访谈和文章，我们总结了以下几点：

大量真实场景数据

获取大量真实物体数据是推动Covariant从UC Berkeley大学实验室走出来到工业界的主要原因之一。通过与仓储物流领域的公司合作，Covariant Brain可以接触到大量现实世界中的物品。Covariant Brain在全球数百万次机器人的拾取任务中进行了预训练，通过从所有连接的机器人中学习不断改进。

全新的人工智能架构

仓库中的数百万个SKU提供了广泛多样的学习机会，但同时也需要一种新型的人工智能架构，一种能够在与各种物品的无限组合中相互作用时内化经验的架构。为了使架构能够吸收如此多的经验，它不能受到简单化假设的限制。

这种简单化假设的一个例子是什么？典型的3D相机可以使机器人对世界有空间理解，但它们假设物体不透明，也就是说你无法透过物体看到里面。对于很多物体，比如箱子或包裹，这是可以接受的。但像水瓶这样常见的物体会打破这个假设，对于任何现有的3D相机来说，它会显得无形。

一个完全无害的水瓶对于大多数机器人的视觉系统来说，也就是常见的3D相机来说，它是看不见的。

Covariant的方案是完全放弃现成的3D相机，因为无论展示给它们多少个水瓶或其他透明物体，它们都没有学习看到它们的机制。

那么Covariant的机器人是如何找到水瓶的呢？Covariant的视觉系统受到人类视觉的启发：人类通过眼睛所观察到的场景和大量的过去经验来理解场景。Covariant Brain与传统的机器人3D视觉系统的核心差别是，Covariant Brain摒弃了3D相机和人工标注特征这些传统的机器视觉方案，采用了深度学习和强化学习等手段，通过大量数据（人类提供的注释和机器人自身的经验）提取知识，并从行为结果的反馈（正确或错误）中学习。

这只是Covariant一直在做出的决策中的一个例子。Covariant始终选择长期性能而不是被接受的捷径，这些捷径最终会限制人工智能从经验中学习的能力。Covariant一直致力于构建这种灵活的人工智能，尽量减少工程师所假设的限制。

自回归概率建模

传统的神经网络（NN）会生成单个答案或预测，但神经网络并不知道其边界框预测的置信度。神经网络可能对物体的存在有信心，但对边界框尺寸的估计完全错误。

当边界框部分被观察到且不完全可见时，预测边界框的高度。（a）使用顶部安装的摄像头的图像；（b）传统的边界框高度预测，只进行了一次预测；（c-e）使用自回归概率建模进行多次预测，并带有置信度水平。（Source：Covariant）

在仓库中的拣选机器人自动化领域，这样一个未知置信度水平的单一预测是不足够的，事实上也是不可接受的。这是因为如果机器人根据置信度较低的预测行动，却没有意识到错误可能性较高，可能会导致碰撞，造成无法修复的损坏。

为了解决这个问题，Covariant的人工智能研究团队开发了一种更好的人工智能生成三维边界框的方法。研究人员采用了一种在其他领域常见但尚未用于生成边界框的技术：自回归概率建模。

自回归模型的本质是提供多个预测，涵盖了整个可能性范围，可以对其进行解释并确定其置信度水平。它不仅仅为一个维度（例如高度）提供多个预测，而是为所有维度（例如高度、长度、宽度）提供多个预测。

因此，当为一个物体生成边界框时，研究人员也知道对于该边界框的各个维度是确定的还是不确定的。通过表达这种不确定性，使机器人能够在真实世界中进行推理。

Covariant机器人在仓库和订单处理中心中运行，经常需要从混乱和无结构的情况中挑选物品。例如，一个容器或箱子可能装有各种SKU和物品，它们相互重叠。然后，机器人将这些物品放置到各种类型的目的地，从小隔间到堆叠的托盘。在每种情况下，机器人必须准确理解它正在处理的物体的大小和形状，以避免碰撞并精确放置物品。

传统的生成物体边界框的方法是不可接受的，也是危险的，因为我们不希望机器人根据不确定的尺寸数据行动。我们的人工智能研究人员开发的新方法赋予机器人适应其运动的能力，考虑到它们对正在处理的物体尺寸的置信度水平。因此，如果人工智能模型生成的边界框置信度较低，机器人将知道提供额外的间隙以避免碰撞。这使得我们的机器人在真实世界中表现出更高的准确性。

应用场景

Covariant机器人进入真实世界的切入点是仓储和物流领域。仓库和配送中心是每天挑选、打包和发货数亿个产品的理想学习环境。在实际运用过程中，如果要想让机器人学习，又不希望机器人犯错，是几乎不可能的事情。仓储物流与自动驾驶技术或制造业相比，机器人“犯错”的代价更小，因此即使在机器人仍在学习的早期阶段，人工智能也可以尽早引入。

同时，仓库为机器人提供了一个非常丰富的互动环境。仓库中常常存放着数万、数十万甚至数百万种不同类型的物品（SKU），而这些SKU的种类总是在变化中。此外，目前在仓储和物流领域，人工分拣居多，如果分拣全部换成机器人, 而且效率可靠性有保障, 是一个很大的市场。以下是几个具体的应用场景。

Robotic Putwall（机器人拣选墙）

Covariant的AI机器人Putwall可自主对混合SKU的容器进行物品分拣，以解决劳动力缺口并提高吞吐量，这项自动化的分拣技术可用于批量拣货和退货处理操作。

Goods-to-Person Picking（货到人拣选）

Covariant机器人从穿梭车、自动导引车(AMR)和其他自动化仓储与检索系统(ASRS)中进行拣选，将传统人对物系统转变为自动化的机器人对物系统，提高效率并弥补劳动力缺口。

Robotic Induction（机器人入库系统）

Covariant机器人入库系统使用AI机器人自主将物品投入分拣机，而不是让人员执行这个重复性易受伤的任务，降低了对人工劳动的依赖并提高了效率。该系统适用于将物品自动投入单元分拣机、口袋分拣机、自动导向车（AMR）和自动装袋机等设备。

Robotic Kitting（机器人套件组装）

Covariant机器人套件组装是指使用人工智能来自主地从供应托盘中取出物品，并将它们放入出货箱、容器或袋中的系统，用于包装、餐饮套餐组装等场景。