新闻中心 分类>>

绿洲对谈殷鹏教授:收敛与飞轮

2024-01-29 11:05:46
浏览次数:
返回列表

  绿洲对谈殷鹏教授:收敛与飞轮电脑有电脑操作系统,手机有手机操作系统,我们做的是机器人操作系统。机器人需要和物理世界接触,我们重点做的是如何完善它的操作系统。这不算一个新故事,过去多年来无论驾驶也好、仓储物流也好,各类机器人都需要从底向上的整体策略。

  过去十年中,我们重点研究将与人们生活息息相关的机器人技术,从定位、建模、规划、决策、感知、规划等等统一到一个架构下,有点类似无人驾驶,只是机器人领域更难,更敏感。当下的机器人都是专用场景的专用机,从长期而言,我们希望最终实现通用机器人系统。

  绿洲:现在对“机器人”有很多表达,比如 Robot,Humannoid,咬文嚼字来说,您如何定义真正的机器人呢?

  殷教授:追根溯源,科幻小说中的 Robot 指劳动力,是奴隶的音译,Robot 是从机器人本身的价值和意义去定义,既“工具”。Humannoid 是后期大约到上世纪六七十年代,大家觉得机器人应该向人的方向发展,诞生了类人、拟人的人形机器人。

  从原始定义出发,真正意义上的机器人,如果不带“人”这个词,机器人就是工具。如果要赋予人的属性或者价值,从生物属性而言,它应该有某种形式的自我意识,对周围环境有自发的理解能力,对未知事物有好奇心机制,去探索、去优化。它不是一种生物,而是一种载体。区别于常规意义上的飞机、火车,它最大的意义在于“反思”,它的某个属性让人觉得其具有智慧。有了智慧之后才能更进一步跟人交互,如同 ChatGPT 大模型与人交互,让人认为或者感觉模型具有逻辑推导能力和思维导向属性,能够做一些更高层次,拟人的事。具体来说,有可以在废墟环境或者极端环境下替代人类的工具型机器人;有自带情感输出的陪伴机器人、看护机器人,而不再是纯粹的劳动力。

  绿洲:按照这个说法,如果没有 ChatGPT 带来的深刻冲击,可能谈不上实现您定义的机器人?

  殷教授:AI 机器人这一波也不是第一波,而是从上世纪 50 年代就开始了。这次是因为 ChatGPT 崛起而产生了根本性的改变,让人觉得模型真的具有思考能力和逻辑推导能力,与之前基于规则性的人定义的 if else 属性完全不同。

  殷教授:如果不考虑机器人的硬件载体,只考虑逻辑思维能力,ChatGPT3.5 或者 4,可以被认为是具备 10 岁左右小孩智慧水平的生命体。

  未来如果 ChatGPT5 出来,可能会升级为拥有大学生思维逻辑的生物体。如果不考虑硬件物理实体,就已经属于机器人系统了。如果一定要考虑物理世界交互的机器人,目前为止还不多见,除非是类似于 Elon Musk 做的人形机器人或者 OpenAI 收购的 1X 机器人公司,在 ChatGPT 基础上把物理外设加到智慧体之上,形成一个具备本体的机器人系统。绿洲:斯坦福李飞飞提出具身智能 VoxPoser,Google 也来卷 PaLM-E,您怎么看待这一波发展中的不同路径呢?

  殷教授:这是个很有意思的点。包括谷歌的 PaLM-E,李飞飞的 VoxPoser 也好,都打开了一个渠道。早期的 ChatGPT,只能说从 NLP 中具备了一定程度的泛化属性。刨除物理世界映射,ChatGPT 从文本程度上已经涌现出了基本的逻辑能力。

  但真实世界环境下,在 PaLM-E 和 VoxPoser 之前,我们基本没有看到任何一篇工作能做到这种程度——把真实世界的视觉信息、定位信息、建模信息、还有声音信息,甚至触觉信息都融合到一个统一的世界模型中。不得不说 PaLM-E,VoxPoser 开启了这个领域的先河。由于真实世界太过复杂,不能说做得很完备,但它们确实非常早期地把真实世界映射到了隐形空间里,让机器人或者让 ChatGPT 大模型理解了物理世界的属性,这是他们所做到的。

  当然这件事本身也有短板。和 NLP 不同, NLP 发展这么多年,才诞生了 ChatGPT。像 BERT 大模型也演变了很多代,最终推导出当前的一种可行模式。

  真实世界的复杂在于多信息的交叉耦合。机器人要像人一样在屋子里探索,在空间、声音、光照等信息混合的情况下,如何将 3D 甚至 N 维世界里把这些信息映射到一个维度上?就是最难的事情。不得不说,谷歌、李飞飞的工作是很好的尝试,但距离达到 ChatGPT 的涌现,还有大量工作要做。

  绿洲:现在的时间节点,如果通用机器人还没有那么“通用”,那有没有实际的落地场景呢?还是只有实验室的落地场景?

  殷教授:从实际落地角度来考虑,机器人和大模型结合,或者通用机器人技术,都还处于初期,可能还需要投入 3 年、 5 年甚至更长的时间去做。回想十年前的 NLP,也最多能做到“小度小度”或者小爱机器人的程度,即便如此,当时的 NLP 也已经发展了很多年了。机器人或者 CV 领域,都是得益于 NLP 行业的发展而崛起的。客观而言,如果去年 12 月没有诞生 ChatGPT,可能大部分我们所熟悉的 NLP 依然处在传统思路。但由于突然出现的涌现能力,体现了量变到质变,机器人的发展路径也是一样。

  目前虽然暂时还没有通用机器人的系统,但不管是扫地机器人、清洁机器人,还是物流机器人,都有各种各样的系统模型和泛化,跟当年 NLP 的状况别无二致。当年 NLP 也有针对文本处理的各种子任务。ChatGPT 出现之后,很多子任务就被清掉了。同理,一旦出现一种具有通用属性的机器人系统模型,常规意义上针对特定领域机器人的泛化属性就会消失殆尽。ChatGPT 出现之前,做这种“春秋大梦”不太现实,但是 ChatGPT 的涌现至少论证了一点:在纯粹的 NLP 中,大模型确实具备高层次逻辑推导能力。只要能打通物理世界和文本世界的桥路,机器人原则上也可以具备大模型的能力。需要多久实现,时间确实不可控。一旦出现,整个行业会全面洗牌。

  我们也可以去分析 OpenAI 的心路旅程,早期不被看好,市场反应平平,去年年底如果没有 ChatGPT,公司都处于“生死存亡”的节点了。

  具有划时代意义的事,需要一批优秀的科学家、投资人、大企业的全力支持,并经过长期积累,才能呈现“现象级”事件。机器人行业比较幸运,因为 OpenAI 的触发,让大家看到希望。以 Elon Musk 或者 OpenAI 为首的人和公司,在全力以赴冲击机器人的通用智能,一旦经过有规律的系列训练,最终呈现通用价值,所带来的社会属性会很庞大。

  绿洲:科研有时候就是捅破窗户纸,在机器人领域,假设从当下要突破到 NLP 的“现象级”时刻,学术界是否还要承担更多的角色,还是已经到了工程化的节点了?

  殷教授:这个问题很好。目前还是既离不开学术圈,也离不开业界的状态。怎么去理解呢?可以看一下特斯拉的无人驾驶 FSD 。特斯拉 FSD 的 Transformer,出自谷歌纯研究员之手。无论 OpenAI,谷歌 Research 或者 Meta,虽然他们的工作也以产业为导向,但在工业环境下能拥有足够的资源支撑研究工作。

  反观特斯拉的有趣之处,虽然它用的都是很老的 Transformer 或者 BEV Transformer,但却能构成无人车行业的数据闭环。人人都在提数据闭环,单纯的算法推到极致,也存在边界。FSD12 是一个典型案例,让大家看到系统性能如何能保持提升。它具备通用能跑的架构,大量高质量高性能的数据,这些数据可以反复优化系统,令模型具备足够的泛化能力。

  FSD 强的原因,一方面是架构足够好,二是在足够好的架构下,能形成有效的高效率数据闭环,让模型飞轮转起来,达到最理想的结果。ChatGPT 也一样,架构转通,涌现大量高质量数据,完成强化学习闭环,飞轮就转起来了。

  从这两个例子可以看到,超大模型对真实世界的有效涌现,需要来自于学术届的架构(学术界的思维比较开放活跃,会形成更有效的强化学习机制或者架构,所以一般架构都来自学术界),同时需要来自于工业界的高效数据整合能力。特斯拉无疑就是典型,全世界几百万辆车同时采集数据,可以见到很多 corner case(长尾场景),在学术界根本不可能。

  再举个例子,18、19 年的时候,OpenAI 的 CTO 想做机器模型,用机械手拧魔方,但泛化能力极差,项目最后暂停。之后 CTO 接受采访表示,机器人做模型最大的短板就是如何去获取高质量的有效数据。这件事反映出,无论学术界还是顶尖机构,确实可以推出架构,但是模型能不能转起来并且持续优化,还是取决于持续优质的数据。

  NLP 也好,无人车也好,如今有了明确的模板向前推进。但机器人领域,无论 PalM-E 还是 VoxPoser,数据维度过于复杂,有听觉、声音、触觉、空间,还有感知,如何将如此度的信息耦合成一种度的数据库进行训练,尚未取得突破。

  绿洲:说到特斯拉,您觉得 Elon Musk 当年赌纯视觉,是第一性原理么?还是看到了超大模型的可能性呢?

  殷教授:这真不好讲(笑)。Musk 的思维模式,可能一方面确实是第一性原理,但另一方面也在赌。Musk 当时说激光无用,纯视觉可行的结论建立在“人就是这么做的”基础上,符合第一性原理,但毫无疑问也有赌的因素。反对派很容易说,人的确是这么搞的,比如飞机不具备鸟结构,人的特殊发明使飞机实现鸟的能力。从这个立场来说,第一性原理也站不住脚。

  但第一性原理又要从另一个底层去考虑。激光成本的确太高,如果视觉能实现,车就能便宜,销量上去,数据量就能起来。按照大模型的飞轮机理,特斯拉的模型必定能训得越来越好。退到 10 年以前,很难评价他在赌还是线 年时,深度学习初露头角,很难界定不用高精激光是否可行。反观如今,大家看到的结果是,无论从生产还是卖车的角度,不管能否实现通用人工智能或者通用汽车,只要能把成本降下来,量起来了,有了数据,其他都好说。

  殷教授:这也可以从历史上去讲。飞机刚诞生的时候有多种模态,滑翔翼形式的,加上翅膀蹬自行车的,琳琅满目。随着最早一批飞机的诞生,出于空气动力学,高效率低成本等现实需求,最终收敛成几种常规模态。机器人也一样,不同的控制方法对应不同机器人本体,人形、轮足、足式、两足、四足……最终会根据客户需求收敛到一两种常规意义上的模态。

  从客户需求来说,为什么现在都在搞人形?因为在常规场景之下,收敛形是相对稳定的状态。是否所有机器人都会收敛到人形?也不一定。某些环境下,轮足机器人具备功耗和行动效率的优势,这种机器人载体也可能会成型。

  当所有机器人收敛到几种常规模态之后,只会影响底层控制层,对于控制层之上的东西不会有影响。常规的控制策略最终也会收敛为一两种。以控制方法为例,早期有 PID 控制、 MPC 控制、H 无穷控制…… 2019 年,ETH 的四足机器人做出了一套基于强化学习,从虚拟到现实映射的端到端的训练方法,这个方法最大的好处,是用有限的真实世界数据,加上大量虚拟世界数据,通过一套强化学习的方法,把四足机器人训得非常出色。他们最新视频也可以看到惊艳的效果,这个策略在当年验证成功。

  最近听说一些轮型机器人或者轮族机器人也在用类似的策略,通过端到端的方法,把这类机器人训练到稳定的状态。

  这个例子说明,控制类的方法,不管底层是什么形态的机器人,最终都会收敛到一两个控制策略上。从操作系统上来说,底层微调后也能适配不同模态的机器人系统。这可能会是一个未来的趋势。

  殷教授:应该用不了那么久。估计 2030 年左右,常规意义的通用机器人基本上就可以进入人们的生活了。

  绿洲:大家都在探索具身智能的各种路径,最近论文也很多。对标 AI ,机器人做具身智能已经出现了通道么?还是目前并没有达成共识?

  殷教授:不管国内还是美国,整个行业在逐渐对人形机器人形成共识。比如特斯拉,除了做人形机器人之外,还做 SpaceX,8 月 31 日刚进行了第二次发射。对于他们来说,内部既定的时间线 年前后,把人以及人形机器人发送到火星。要实现这个目标,就要求人形机器人具备人类在太空、火星环境下工作的基本能力。

  2021 年特斯拉宣称要做人形机器人,去年有了初级模态,今年 3 月在 AI Day 展示了基本步态控制,基本形态已经打磨出来了。从里到外,控制机器,电机,都说明了设计的理由。2008 年特斯拉要造电动汽车,当时全世界没有几个人响应,现在整个行业被他一个人改变,整个中国的电车行业也改变了。

  造车比造机器人难,机器人不是电机就是执行器。当这些东西全部都可被量化,Musk 将所有复杂的事情刨细,一层层把生产成本滤出来,实现低成本落地。Musk 认为在 2028 年人形机器人生产效率大约能达到人的 1/3,机器人 24 小时工作,不像人只能工作 8 小时。加上数据飞轮,标准化的模块和操作模式,在工厂环境或者特定环境下积累大量优质数据后,机器人的 FSD 就不是问题。

  机器人的数据是更高维度、更加复杂的。2023 年到 2030 年间,国内外优质的公司都想方设法把人形机器人或者其他形态机器人经营的模态数据优化到一个数据库中,用类似大模型体系持续优化训练,和 FSD 的方法一样。

  这是一条正确的通道么?综合特斯拉的发家史,从宣称要实现终极无人驾驶,到现在已经实现的中间过程,加上 OpenAI 的进展,我们可以感受到,这件事行与不行,取决于几个关键步骤:一是机器人本体、数据、结构能否标准化?二是大模型能否更进一步?如果以上都实现,这个时间点就有可能实现。

  绿洲:您提到一个关键点“数据”,整个行业都提到这个问题。关于数据您的想法是什么?大家在做什么方面的探索?

  殷教授:还是从特斯拉 FSD 举例,大家可以有直观的感受。为什么它的 FSD 好?很简单,它有海量的车,梳理海量 corner case 数据。为什么其他公司无法与之匹敌?因为一般车企收集数据太带有主观意识,并非被动收集。这就导致不管方法设计得多么优美和优雅,数据却带有偏见。人会客观地去找好的场景开车,忽略 corner case。为什么特斯拉可以?因为他们有一套标准的数据同步机制,不管在全世界什么地方开,更多的是事故数据,即非正常数据。特斯拉在云端持续云运行更新模型,这是 FSD 真正的成长核心。

  什么时候机器人可以自发收集数据,不带偏见,这件事就能做成。当然车和人形机器人还不同,车在标准的公路环境下普适性强。机器人尤其是人形机器人,需要适应复杂的场景模态。只有这套机制建立起来,实现机器人自发收集数据,记录 corner case,持续维护云端数据库,再去优化机器人的行为才会变成可能。

  绿洲:大家提到仿真器,或者说虚拟到现实的平台的物理性能目前似乎都不够理想。英伟达和其他开源工具同机器人的匹配度如何呢?在这个方向,创业公司有机会吗?

  殷教授:我觉得比较难。一个创业公司做无人驾驶的数据可能说得通,但实际上也没太多企业能真跑出来,大部分还是用真实数据。通过仿真器做出来的最大问题在于数据模态太复杂,机型本身控制量又复杂,导致收集高质量数据在真实世界基本就是伪命题。

  市面上已经存在高质量平台,Unreal, Unity 都做得很不错。如果一个初创公司要去做一套自己的仿真平台,时间周期和成本相对于已经在行业里做了十几年大厂,会有一些难度。

  另外一个视角,也有一些公司比如 ETH 的四足机器人,之所以可以跑得那么鲁棒,是因为和英伟达高度绑定。英伟达提供了尽可能和真实世界逼近的访问平台,把四足机器人放进去验证,只需收集有限的真实世界数据就可以泛化出大量虚拟实际的数据。从这个思路来说,与大厂合作是可行的。

  当然也不排除个别非常强的团队,自己能造出强大的物理引擎,历史上也发生过。物理引擎还是很致命的,只有渲染效果还不够半岛。如果某个团队在物理引擎上实现突破,可能会取得一席之地。不过目前来说,无论开源的物理引擎或者渲染项目,还很难看到非常有价值的内容。

  殷教授:这是双向的。英伟达 Omniverse 也做实验,就像当年英伟达做CUDA。CUDA 早期只是大家有需求,让英伟达自行判断到底这玩意该怎么去发展。是根据社会学界或者业界的反馈去优化工具。同理,机器人行业老黄说要 all in 具身智能,就是打算筹划另一个类似 CUDA 的工具。至于业界到底有什么需求,根据大家的反馈去推进就好了。另一方面,业界会根据集成好的工具包,进一步快速优化系统,彼此弥补对方的不足。

  殷教授:我接触的工业是 AMR(自主移动机器人)或者矿区机器人。以矿区为例,从客户的角度,矿区实际需要一套机器人系统完全把人替换掉:自动进入地下矿区,对环境建模,质量分析,生成矿区用户所需数据,安排维修维护。他们需要的是一体化解决方案,而不是一个设备。同样道理,以物流为例,物流机器人只是把货放在外卖柜上,距离到人手里,还差了一个上楼梯和进园区的距离。大家需要的是完全取消人,把东西交到用户手中。

  绿洲:之前您提到 2030 年左右,常规意义上的通用机器人就可以进入人们的生活了。这指的是哪些机器人呢?

  殷教授:Musk 做的人形机器人所处的工厂环境算非常复杂的场景。如果工厂环境人形机器人可以应对自如,原则上从技术角度而言,这类机器人就可以直接进入社会。包括公共安全,比如街上的巡检机器人,扫地机器人;家庭服务型机器人,看护型机器人。预期在 2030 年,这类机器人会把所有现在市面上所知的扫地清洁、安防、物流、巡检全部替换,只剩下一种模态的机器人。

  当然过程最难的部分在于,即便把机器人放在纯工厂环境,经过 5 到 7 年的迭代,如何让它具备在各种环境下的适配能力?比方能否轻易穿行于动态人流?在嘈杂的工厂环境下,是否可以专注完成工作,避免碰撞其他工友?能否接受多模态信息,譬如工厂环境下警报,是否可以采取最优行为?这一系列问题如果能在工厂环境下全部解决,那么这类机器人基本上就可以进入千家万户了。

  殷教授:人的机体能力是有限的,人类想去外太空,去地下,去水下。如果能诞生一种具有劳动能力,能克服环境,在多样化场景下工作的代替人类的机器人,那么人的活动范围、活动能力以及人的生产力就会产生完全不同的结论。我和大部分做技能的初衷一样,希望提高生产力。

  殷教授:比如高精度定位,实现自动挖掘、自动探索、自动优化,确保机器人连续几年工作不会停顿,这是我们现在能做到的。我们搭的这套机器人通用模型,也是在继承了上述工作的基础上做进一步优化。这类机器人在没有任何人为干预的情况下,能在自然环境下继续生存,还有继续探索的能力。

  殷教授:把最优秀的机器人顶层技术集中在一起,把世界前沿的机器人技术联合起来,构建机器人的通用系统,就是成立这个组织的目的。技术在组织内部可以互相通用共享,希望把大家聚集在一起做成开源的基建操作系统。

  这个世界唯一不变的规律就是“持续改变”,唯有不断进行内外的进化,才能适应科技带来的“新生命力”。

搜索