通用型机器人成为「家用 PC」,有望在 2030 年实现
记者 | 陈晨
编辑 | 靖宇
头戴黑色头套,身穿白色紧身衣,在一年前的特斯拉 AI 日上,由真人扮成的 Tesla Bot 在活动现场跳了一支「机械舞」。这场表演的旁边,特斯拉举着话筒宣告,特斯拉会在「明年某个时候」制造原型。
一年过去了,人们期待着一场不再滑稽的演示,而那个黑白撞色的苗条机器人已经改名为 Optimus——它即将在特斯拉今年的 AI 日上走出 PPT,真正直面各种技术上甚至审美上的审视。
差不多 20 年前,刚刚成立的特斯拉,有一个承载自百年前的「电动车」梦想,遭到传统车厂群嘲。而二十年后的当下,在狂人马斯克的带领下,以电动车为代表的新能源车,已经成为汽车进化的下一个方向。
这也是为什么,人们会如此关注特斯拉的 Optimus 机器人——或许,它可以像特斯拉一样,成为「人形机器人」领域的一条鲶鱼,搅动整个行业的进化程序?
近日,极客公园与优必选科技人形机器人创新中心的负责人付春江博士,一起聊了聊特斯拉在机器人领域的进展,以及 Optimus 要想真正进入到普通消费者的家庭,还需要多久。
当然,更重要的是,中国的机器人产业,将会如何进行追赶?
机器人,下一代「家用 PC」
极客公园:特斯拉现在入局做人形机器人的想法是什么?
付春江 :对比个人电脑,在过去 IBM 没有推出个人电脑之前,其实市场上都是企业或者政府采购的大型机。
特斯拉要做的事情,就是把人形机器人「个人 PC 化」。现在是整个行业的拐点,包括我们,也在推进这个进程。
其实个人 PC 在刚推出的时候,做不了什么东西,只能处理一些表格类的工作。人形机器人可能也是一样,但不能因为看不到短期收益就不做,从商业角度来讲,肯定要抢占先发优势。
极客公园 :预测特斯拉 9 月底公布的人形机器人,能达成它透露的那些技术和参数吗?
付春江 :我们现在认为是有可能的。比如说他所说的移动速度 8 公里每小时。ASIMO 在过去可以达到 9 公里每小时,美国 Agility Robotics 的 Cassie 双足机器人可以接近 12 公里每小时。
可以举重二十千克也不是很难,ASIMO 其实很早就达成了。
FSD 芯片特斯拉以前在汽车上都用过,与环境的交互上也有相关算法的积累。其他的比如电子皮肤其实也是可以实现的,只不过成本现在有点高,先做一个相对高价版的 demo 以后再降价,也是有这种可能性的。
特斯拉此前公布的人形机器人 | 来源:特斯拉
极客公园:特斯拉有什么样的积累和优势?
付春江:过去它在自动驾驶领域积累起的 AI 算法、数据,都是它很大的一个优势。未来特斯拉汽车和人形机器人在数据采集上会形成很好的互补,汽车采集铺砖路面上的数据,人形机器人采集家庭场景的数据,更快地促进双方从 L0 到 L5 的转变。
它作为车企,在对上下游产业链条的把控上也有比较好的优势。
极客公园:特斯拉在路面上积累的算法数据,可以运用到家庭场景中吗?
付春江 :特斯拉在高速铺装路面上所积累的这些数据,对机器人的贡献在于它哺育了 FSD 的算法系统,提供了最基本的数据基础。虽然在进入家庭时需要重新采集数据,进行新环境的适应与学习,但它有了基础标签。
极客公园: 自动驾驶的算法可以迁移到人形机器人上吗?
付春江:倒不是说自动驾驶的算法,而是开发自动驾驶所积累的神经网络的相关经验,是这个神经网络架构是可以放到人形机器人身上。
当然,自动驾驶与机器人要处理的任务有非常大的不同,第一个是速度上的不同。自动驾驶对实时性的要求非常高,它在速度上的这套框架放到人形机器人上,我觉得是非常合理的,甚至还有性能上的冗余。
人形机器人与自动驾驶不同的地方在与环境的交互。人形机器人与人体、与环境的交互,是需要真正去触碰的,这跟自动驾驶完全不一样。你不能说让车去碰人,他们在过去也不可能积累这样的数据。他们在处理触碰问题时,过去的那套架构要怎样做出调整和适应,也是我们好奇和期待看到的。
极客公园:刚还提到了特斯拉对产业链上下游的把控,车企的供应链和人形机器人是有共通性的吗?
付春江:车企与人形机器人整体的技术栈有很多可以复用的地方。人形机器人以前之所以没有大规模采用车企的供应链,是因为车企供应链供货量大,对资金的要求比较大,看不上人形机器人这个相对比较小的链条。
那么随着特斯拉进入,现在很多车企的供应链,已经开始准备介入到人形机器人的供应链中了。比如说新能源车里的几大件,舵机、速器,还有电池热管理,其实经过简单改造,都可以用到人形机器人上。
极客公园:在未来,特斯拉会在哪些方面跑得比其他公司快?
付春江:第一个增加算力。增加算力就看你的相关投入,像特斯拉这种规模大、投入大的,肯定进展相对快一些。
第二点,在动作多样性上。动作多样性跟开发人员的数量还是有关系的,开发人员越多,能开发的动作就越多。像特斯拉这种量级的公司,可以有能力在短时间内建一个非常大规模的开发团队。
第三个是特斯拉在材料方面。特斯拉的创始人马斯克还搞航天、卫星,他们在航空航天积累下来的材料方面的优势,也能应用到机器人上。
第四是特斯拉在过去积累了开发各种平台与简化平台的能力,比如说,过去汽车制造也是很复杂的,特斯拉进来之后,把芯片、算法,通过平台化的方法大大简化。
第五个优势是特斯拉制造工具的能力。特斯拉制造汽车的时候是专门造了非常大型的冲压机,它能制造工具,提高生产效率。人形机器人有五六千个零部件,未来也可能通过一体化的方式加快生产制造,这是它过去的经验证明过的。
特斯拉上海工厂里的 Model Y Giga 压铸机 | 来源:特斯拉 2020 年四季度财报
极客公园 :从各项技术指标上看是不是意味着,特斯拉的人形机器人与现有的人形机器人,并没有代差级的差异?
付春江 :我认为特斯拉的人形机器人在整体布局上是没有代差的,不过在同一代内有改进的地方。
它整体体积,就是他的体重身高比,会比其他的人形机器人要小,这个更「瘦」对舵机关节的功率密度是有一定要求的。特斯拉在电机方面有非常多的专利,我们觉得它的舵机功率密度在体积受限的情况下,可能有一个比较好的向上的提升。当然这种提升的开始,很可能是利用现有技术的代内提升。
机器人赛道,少数人的游戏
极客公园:目前人形机器人在研发上最大的难点在哪?
付春江 :最难的是怎么样灵活地与物体或环境接触:一个是腿部与复杂的地面环境如何接触,并保持稳定,另一个是手如何稳定地接触和操纵物体。像工业机械臂,就是直接用夹具把最难的部分屏蔽掉了。
极客公园:但是如果没有算法的优化仅靠硬件,机器人是不是也没办法完成复杂的动作?
付春江 :正像你所说的,现在人形机器人的限制性条件第一是成本,第二就是通用 AI 技术的发展。
人形机器人在软件算法上主要分成三个部分,分别是控制、优化和学习。控制和优化有强实时性的优点,学习能解决泛化和多样性的问题,只有把两部分相结合,才能真正让产品落地。
我预计通用 AI 技术发展会有两个关键时间节点。第一是到 2025 年,控制优化算法能与机器学习相结合,机器人能在半封闭场景下,做不是特别复杂的任务,达到对人力替代的目的。到 2030 年,随着通用 AI 技术的发展以及算力的提升,才会初步达到人们对人形机器人的更多预期。
极客公园:在人形机器人领域,软硬件之间的关系是什么样的?人形机器人这种形态,会对软件算法提出更高的挑战吗?
付春江 :「人形」的这种需要与环境交互的硬件形态,会增加通用 AI 处理相关问题的难度,这是在过去处理视觉、语音等问题的时候没有体现出来的。这时候 Deep learning(深度学习)还不够,也要用 Reinforcement learning(强化学习),还有其他各种各样的方式来处理问题。
软件的进步则让机器人处理更多的任务,进入更多的场景,进而能推进商业化与放量,通过规模生产降低硬件成本。再进一步,高校研究机构能获得更廉价、性能更好的硬件,也能加速他们对相关算法的开发。这是一种正向的循环迭代。
极客公园 :在与周围环境的协同中,是不是软件算法的作用相对较大?
付春江 :控制分为软硬件两个方面,软件的部分是相对比较大,但是硬件本身具备的适应性在交互过程中也起到了非常重要的作用。比如说现在很多机器人用的是钢体,其实半钢体或者说柔性体可能更适合。
之前英国人做过一个视频,他们套上钢制成的手指套抓杯子。即使人有很高的运动智能,但是如果肢体末端不具备足够的摩擦力,也抓不住杯子。
脚与地面相接触也是一样的。羚羊在非常陡的山坡上奔跑行走,这其实是非常令人惊艳的这样一种运动方式。分析来分析去,科学家发现羚羊脚掌构造非常独特,是一种像弹弓一样的双体结构,这种双体结构在适应破碎地面时非常有优势。现在加拿大和美国也在仿照羚羊脚开发机器人的脚,这都是具有启发性的。
国外网友模仿人体结构设计的机器人腿部模型 | 来源:ZBrushCentral
极客公园:在研究机器人的时候,会跟人体有一些对照吗?目前在学习人体结构上面,还有哪些地方比较困难?
付春江:人体结构可以分为三个层次,第一个层次是人体骨骼系统,类比到机器人上就是刚体。人体骨骼系统即便是刚体,也是非常复杂的,现在机器人大多停留在对人体骨骼系统的简单模仿上。不过在人形机器人有建模抽象化的处理方式,不需要精准复刻,就像飞机翅膀虽然比鸟类翅膀简单得多,完成飞行任务就行。
人体肌肉系统则涉及到柔性驱动。柔性驱动是现在世界上非常火热的一个研究方向,发表了好多特别高水平的论文。现在在机器人驱动上我们都用舵机,未来我们可能就会用柔性的、仿造人工肌肉的方式进行驱动。
然后第三个层次就是人的大脑和神经系统。在控制领域对这方面有非常多的借鉴与模仿,不过都是黑箱模型,说不清道理。
极客公园:这两年涌现出很多机器人开发平台,未来人形机器人领域会开放生态吗?
付春江 :我个人的判断,虽然说马斯克一直在说它未来可能会开放一定的生态,但是我更加倾向于特斯拉会做人形机器人界的苹果公司。它所有的东西全部自研,场景生态可能也相对封闭,不会开放一些比较底层的 API、SDK。
优必选科技的策略,是做人形机器人界的安卓。过去我们也积累了很多东西,比如硬件平台、软件平台、控制框架、AI 平台、云平台等,未来还是希望可以跟行业上下游一起合作。
极客公园 :我们会把人形机器人比喻为皇冠上的明珠,人形机器人研发的难度是非常大的,那它未来可能开源到生态里,让其他的开发者参与到研发过程中吗?
付春江 :人形机器人整体十分复杂,一个四足机器人可能有八个关节,人形机器人有四十个,它的自由度、复杂性是远高于四足机器人的。四足机器人其实有相关的开源,人形机器人到现在为止还没有全面开源,很难一个人造一个大型人形机器人。
四足机器人可能哪个企业都可以做,但未来人形机器人会成为智能制造企业的高端产品,它必然是只是少数玩家的游戏。
虽然说是少数,但是我们看到在近期数量会大幅增加。像汽车行业,经过一百年的发展,每一个国家会有两到三家汽车企业占据统治地位,人形机器人我觉得未来也会有一个相似的局面。
2030 年,机器人走入家庭
极客公园:人形机器人需要满足什么样的条件,才能说服消费者购买?
付春江 :跟过去电脑的发展一样,人形机器人一开始是 ToG,然后是 ToB,最后才是 ToC 的。
我个人判断 2025 年左右一个主要的市场,其实是 ToB 的市场。对工厂或者做重复性但非简单劳动的岗位来说,人形机器人如果能够进行一定程度上的替代,就值得购买。
人形机器人起初的定价可能达到一辆车的水平,比如五六万美元,同时五六万可能是发达国家一个蓝领工人一年的成本。如果说一年就能回本的话,很多企业是愿意购买机器人的。而且机器人的工作时间更长,除了调试维护外,没有其他的成本。
极客公园:特斯拉预计,他们的人形机器人最早在 2023 年会投入生产,也有证券预测特斯拉人形机器人的产量会从刚开始的 20 万台,发展到 2025 年的 100 万台,这跟行业内的判断是相似的吗?
付春江 :行业的判断其实会更加保守。特斯拉可能比如说 2023 、2024,有几十万台的生产预期,他可能确实有那么大的生产能力,但除了生产能力之外,我们还要找到市场需求。
我们现在认为在前期,一个中等发达国家对人形机器人的需求大概是一万台左右,所有的二三十个发达国家,前期需求加起来可能会有二三十万台。
特斯拉剩下的产能,很有可能的方式是自产自销,先给自己的工厂用。然后在实际应用中,进行相关技术的补齐和迭代。
优必选 Walker 概念图 | 来源:优必选研究院官网宣传片
极客公园:根据市面上的猜测,特斯拉人形机器人的价格可能会在 2.5 万美元,约合人民币 17 万元左右,这样的价格要到什么时候才能达到?
付春江 :我认为在 2025-2030 年之间,近期甚至 2025 年前,达成这个价格的可能性还是比较小。
极客公园:人形机器人目前哪些地方的成本是比较高的?哪些地方有降价的空间?
付春江 :最高的主要是舵机这一块,包括电机减速器、编码器,以及电机结构件等,这个成本占 1/3 到 1/2 左右。另外一部分是各种电子传感器与算力板,也能占到将近 1/4 到 1/3。剩下就是整机结构件等等。
整机结构件可以通过出量的方式来大幅度降低成本,舵机也一样,但是没有结构件降得这么多,因为它涉及到材料和加工的成本。电子部分遵循摩尔定律,就是每 18 个月性能翻一番,价格降一倍。
所以量产后整机成本降低 50%,我觉得是完全有可能实现的。
极客公园 :以智能手机为例,现在生产一只手机的成本可能稳定在几百块钱,人形机器人的话,它的整体成本最终可能会降低到什么水准。
付春江 :到 2025 年,我觉得能降到 5 万美元左右,到 2030 年,可以降到 1~ 2 万美元左右。
当然我们在探讨一个商品的时候,成本只是一个方面,即便硬件不赚钱,也可以通过数据和软件服务的方式来赚钱。
产品的价格和成本之间的差距我觉得应该不大,未来的人形机器人的整体利润率可能在 30% 以内。
人形机器人大都想往家庭场景走,特斯拉的人形机器人也有这样的趋势,我们可以期待这种通用型的人形机器人在家庭中帮忙解决哪些问题?可以帮忙做菜吗?
付春江:40 个自由度的人形机器人可以处理很多问题,但是现在控制、优化、学习的相关技术,还没有发展到通用技能的程度。
估计到 2025 到 2030 年左右,这种通用型机器人,可以实现买菜做饭洗衣服,还有对小孩的陪伴和教育。
极客公园:现在机器人好像主要是在深度学习这些算法下,做一些识别分析的工作,但与人类的交互很重要的一点是理解情绪与情感,目前这方面的进展怎么样了?
付春江:人形机器人有三个特点,也是在规模落地时的优势,第一是不需要重新适应人所在的环境,第二是可以使用人所用的工具,第三才是与人的情感交互。
前面提到的做家务,其实第一和第二特点的相关体现。第三点是相对比较难的,这个目标的达成大概分成两个阶段,首先是对人本身的扩张,用远程操控的技术传递情感,比如现在的 SNS 机器人(Sociable Robot),但它传递的是另一个人的情感,并不是机器对情感的理解,或者机器产生的情感。后续随着通用 AI 技术的发展,机器人很有可能会发展出来对人情感的这种理解。
不光是机器学习,认知神经学领域的情感研究也进行了好几十年。我们预计 2030 年以后,在情感研究方面也会取得一定的突破。
Furhat 社交机器人 | 来源:Furhat 官网
极客公园:你当年从本田 Asimo 团队离职,加入到优必选科技,是看到了什么趋势吗?
付春江 :当时一个最主要的原因是,本田内部已经决定停止 ASIMO 的开发,机器人研发会向更加实用化的方向走。第二个是我们国家在机器人领域也有非常大的提升。
其实在本田的工作经历告诉我,很多时候机器人能不能走进千家万户,关键在成本,降低硬件成本,快速推动商业化落地是中国的拿手好戏。回国也是觉得,人形机器人产业化确实有各种契机在。
极客公园:你认为优必选科技在人形机器人上最大技术优势和护城河是什么?
付春江 :首先是我们的整体技术储备,我们在国内外布局专利近 3000 件,发明专利占比超过 70%,涵盖了人工智能和人形机器人核心技术领域。
其次是我们针对人形机器人这套非常复杂的产品的可靠性和场景落地,积累了非常丰富的经验。以 Walker 在迪拜世博会中国馆的案例为例,长达半年的高工作强度没有重大事故,足以证明我们的人形机器人已经达到了国际先进水平。
最后是公司各业务之间的互相赋能:一方面,Walker 是优必选产品之树的树干,为公司其它产品(树枝)提供养分,教育机器人、物流机器人、紫外线消毒机器人及康养机器人等商业化产品都用到了 Walker 的研发成果。另一方面,反过来,这些产品形成了市场和应用,可以做好场景、技术积累,继续支撑 Walker 的进一步研发迭代,让我们开发新的项目做到游刃有余,拥有场景端的积累。
极客公园 :优必选目前正在攻克的技术难题主要有哪些?
付春江 :会在电子皮肤、并联结构、整机优化、降低成本上下功夫。
极客公园:在机器人产业上,国内有哪些优势?
付春江 : AI 技术上,中国的 AI 研究世界第二,STEM 高端人才数量等于发达国家总和,有雄厚的人才储备。
产业链上,中国有世界上规模最大、门类最全、配套最完备的产业链体系,机器人产业已基本形成了从零部件到整机再到集成应用的全产业链体系,这种优势不仅没有哪个国家能够替代,还会伴随着产业更替日益完善。
应用场景上,作为机器人最大的市场之一,中国机器人应用水平高,连续八年是全球最大的工业机器人消费国,服务机器人、特种机器人也在仓储物流、教育娱乐、清洁服务、安防巡检、医疗康复等领域实现了规模应用。而且这一代中国年轻人在技术革新中不断受益,更愿意接受和拥抱前沿技术,拥抱新技术的文化氛围也会无形中减弱机器人的商业化阻力,加速机器人在中国市场的应用落地。
政策上,工业和信息化部等 15 个部门联合印发的《「十四五」机器人产业发展规划》就提出,到 2025 年我国成为全球机器人技术创新策源地、高端制造集聚地和集成应用新高地。我们可以明显看到,从政府到社会基层,社会各界都在共同努力,从供给和需求两侧「双向发力」,加速推进机器人产业的崛起。