浙江大学教授熊蓉：人形机器人关键技术进展与挑战-中国机器人峰会官网

浙江大学教授熊蓉：人形机器人关键技术进展与挑战

发布时间：2024-04-09发布人：中国机器人峰会

4月2日，浙江大学教授熊蓉围绕「人形机器人关键技术进展与挑战」这一主题，展开了主题报告。

以下是本次报告实录：

今天，我主要借这个机会向各位专家领导汇报一下我们这么多年在人形机器人方面所做的工作。

首先，简要介绍一下人形机器人的发展背景。人形机器人原来有很多的称呼，我们一直习惯称之为仿人机器人，这两年才明确叫人形机器人。

它很多都是在模仿人的部分或者全部功能和部分智能，但是人形机器人更强调类人的形态，这种类人的形态使得它更加适应我们人类为自己建设的环境和人类为自己制作的工具，并且能够有更好的人机交互感受，所以在整个作业上有更强的通用性和适用性。

它的这种通用性可以无缝替换人类所从事的一些工作，所以说它是一个未来的重大产业。当然，一些专用型的机器人我们还是要具备的，因为这些专用机器人的能力超越人类，它们有更强的负载、更精准的节拍和更强的一致性。现在专用机器人无法实现的，可能类人的这种形态就可以直接实现无缝替换，因此，人形机器人具有更加广阔的市场。

国内外做了非常乐观的市场预测，特别是高盛对人形机器人的市场乐观度进一步提高。这两年，一些产业界的巨头，包括国际的和国内的都开始布局人形机器人赛道，从整机到核心零部件，到智能控制智能计算。总的来讲，人形机器人进入新的突破期，从原来实验室样机的研发进入到产品的样机以及未来产业化发展的早期阶段。

我们国家非常重视人形机器人的发展，人形机器人已经成为了国家的战略性的新兴技术和产业的方向。2023年，工信部先后出台了揭榜挂帅的项目以及人形机器人发展的指导意见。在今年1月份，七部委发布推动未来产业发展的实施意见里面作为创新标志性产品的第一个就是人形机器人。

人形机器人并不是今天才有的一个系统，上世纪60年代就已经推出第一台双足行走的机器人，它被认为是机器人领域当中的技术竞争制高点，是国与国之间竞争科技的显示点。

主要的难点，首先它几乎是机器人和人工智能技术的制高点，它的技术的复杂性，导致整机系统的研制具有很高的挑战性。除了整机，我们还需要融合它的功能、性能、材料和各个部件，我们对里面的部件提出高的要求，像我们的关节要求它速度要快，体积要小，重量要轻一样，高功率密度依然是我们现在面临的一个挑战。

第二是这个系统，它是一个不稳定系统，大多数时间是单脚支撑。如果是跑步双脚通向，和地面接触的空间和时间也都非常的小，而我们的稳定控制主要发生在小的时间里面，使得它的稳定控制很难。

现在很多的机器人都实现了稳定行走，是不是能够到一个真实的环境里面适应各种环境的扰动，去适应作业的过程中间由于手臂的用力而带来的扰动，保持稳定性以及作业的准确性，这都是它的难点。

第三，作为一种通用的形态，它必须要在各种环境里面执行各种任务，这对它的智能性提出了更高的要求，这也是人工智能领域中间的一个发展的重要的目标，能够实现载人功能向通用人工智能发展。

《人形机器人创新发展指导意见》里明确了一个思想：以应用来迁移，通过整机来带动整个生态的发展。其中几个核心，一个是包括部件、整机系统里的大脑、小脑以及我们要去支持这些研究开发研制的供应链和工具链，由此来形成整个行业的应用和生态建设。

我们从2000年开始机器人方面的研究，主要是关注机器人的智能性和智能的移动和操作。06年的时候，开始注意到了人形机器人。当时，我们主要是以Robocup平台进行技术积累，包括通过机器人的运动平衡控制来进行定位规划，各种运动实施的生成，在国内获得多次冠军。

我们在国家863项目的支持下研制成了2个跟多人对打的机器人，除了解决各种部件如何选择合适的形态，如何进行集成，我们更主要的还是解决了它的智能控制，这也是国际上面第一个能够在线的动态控制并且和快速的球进行击打的人形机器人。

11年10月份成果发布以后，也是得到了国内外的广泛的关注。在这个系统里面，机器人行走的速度和稳定性还是有问题的，只能实现1.2公里每小时的行走，以及在平整地面上实现行走。在打球的时候因为行走速度跟不上，主要是站立打球，用下肢来做平衡控制，所以从12年起我们主要是研究室内外能够快速稳定行走的人形机器人。

在这里，我们研究了包括能够立位控制关节、全身控制以及22年发布的能够在室内外快速稳定行走的机器人。里面的部件关节如何来进行研制？包括高光密度的电机、有更大紧缩比的紧缩器以及形成高集成的一体化的关节。

另外一个技术就是复杂的运动建模和控制的问题。目前在国际上对于人形机器人行走的运动控制有三条技术路线，一个是从机理出发，对整机进行运动学和动力学的建模，然后进行设计，进行规划控制。第二种是特斯拉展示的人的运动映射到机器人上面。第三个机理模型需要依赖模型的准确性，对于复杂环境的适应需要人的介入，研究强化学习的方法，我们在这三个方面都做了一些工作。

模型控制不讲了，通过强化学习生成它各种的动作，然后用它的基本步态，来融合形成环境的适应性，能够自动选择步态的组合。今年年初，我们也把这个方法进一步延伸应用到了人形机器人上面，能够实现对一些不同的地面的适应，这是通过强化学习的方法来形成的。

我们也在人机映射方面做了一系列的工作，怎么把人复杂的动作能够快速映射到机器人上面去。最初，把人的双臂和手的动作映射到一台玉米机器人上面，解决了传统的最优化的映射，只能实现一些简单的动作，需要优化时间比较长。

我们在这里把最优化和目前很热的深度学习提出来了图神经网络下最优的学习方法，一个是大幅提升了它的动作的相似性，而且可以保证机器人的可执行性和安全性，最主要实现了时间上大幅度的提升，快速把人的各种运动映射到机器人上面。我们也是利用现在提出来的语言视觉大模型，进一步提升我们动作的语义的保持。

人形机器人必不可免出现一些故障，一旦出现故障需要人介入它的维修，虽然它出了故障，我们依然能够让它依然保持一定作业的能力，这是我们获得最佳论文奖的工作，假定任何一个关节坏了，它依然可以保证直线行走。

另外一个我们的工作还是放在机器人的智能上面。2000年开始，我们便一直做这方面大量工作，怎么让传统的机器人在封闭静态的环境里面能够像在动态的开放的环境里面一样能够长期自主的工作，以及从依赖人离线编写的程序到自发逐步适应更加丰富的环境和更加多样的作业。

在这方面我们也发表了一系列的论文，在这里我简要的介绍一下，一个是在移动方面，我们对于它的长期准确的定位和导航做了一些工作。我们现在的一些技术已经在多个领域里面有应用验证，包括变电站的巡检机器人，制造业里面新型的AMR，实现复杂地形里对人的跟随。我们也实现了产业转化落地，新型物流机器人目前已经在制造业里面大规模地应用了。

在操作方面，我们从12年完成了打乒乓球的机器人以后，开始研究它如何能够操作更多的对象。一个工作就是这种序列性的作业，能不能让人去展示，然后直接的生成机器人程序，我们人做一下这个装配，对于人的动作进行解析、理解，去解析出来它是用什么动作，操作了什么物体，达到了什么样的效果，并且去解决我们感知的误差到执行的精度的要求。我们的感知误差往往是毫米级的，能够实现准确的未知的推理，然后实现程序自动的生成。我们实现了不同的手电筒、开关，包括机器人关节的这样一个对人的学习，仅用几分钟的时间来生成。

刚才是有人类参照的，但是在开放性环境里面我们很难有人的参照，需要机器人能够自主的决策，我们也解决了中间的评价以及能够快速学习的问题。

对这种开放混杂场景，我们进一步引入了语言大模型和视觉大模型。大模型通过大量数据的训练，虽然里面包含了各种各样的物体，但是它还是有很多的物体是检测不了的。当它堆点在一起的时候，它检测的准确性，定位的准确性都是很低的，这直接导致机器人执行的失败。

在这种情况下，我们怎么能够让机器人通过它的行为逐步地收敛到正确的结果里面？我们就提出来了把语言大模型视觉大模型和机器人操作的模型去融合来进行学习，实现了在混杂场景下，通过它的操作，最后来完成我们要求的工作。

通过这样一系列的，从强化学习、语言模型以及模仿的结合，我们可以让机器人完成桌面的梳理，它会进行长序列的规划生成，在最后来达到我们的制定的要求。

在机器人的伺服控制中，这种传统的方法对于场景的变化，还是有一个局限性。我们用学习的方法的话它非常依赖于我们的数据。我们能够实现端到端的伺服控制，包括背景的变化，以及适应传感器在应用过程当中不小心把它碰动了，它的外参变化了，在这样的扰动下，我们是不是依然能够去适应？以及如何适应各种场景里面的纹理。

这个deepmind通过8个小时的训练可以达到9.98的成功率，我们用一个小时的训练能够达到99.99%的成功率，而且它能够适应不同的接口以及各种形状。

今年3月份，在浙江省宁波市政府的支持下，人形机器人创新中心正式启动，领航者1号正式发布。我们在之前的基础上进一步做了优化改进，同时也更强调了赋予类人的学习和操作的能力。目前机器人的行走已经完成了室内平整地面的测试，在如何适应各种场景，在执行各种动作之间依然保证平衡控制以及如何进一步提高节拍等方面也在持续研究中。我们也研发了灵巧手，能够实现更快速度的操作。

人形机器人真正形成一个产品，还是有很多的工作要做。作为一个产品来讲，它要实现高可靠性低成本。从整机来讲，它的可靠性都是需要进一步降低成本，这依赖于我们的核心零部件，需要大家都围绕人形机器人来做。

但是，动力部件的功率密度跟人形机器人真正实现灵巧运动还是有一定差距的。我们往往说力举够了，速度够了，体积过大，这个人形机器人看着比较笨重，或者有一定的威胁感了，如何提升部件的性能，依然是我们面临的问题，像我们的传感器也是一样的，怎么样能够在小体积下做到高精度的响应也是我们面临的问题。

第二个是运动控制。我们的人形机器人要能够实现各种灵巧的运动作业，运动控制是非常重要的基础。我们现在在这方面已经有了很好的基础，各种技术路线也有突破，能够去展示一定的能力。但是，我们会看到它对你的作业对象的适应性、环境的适应性还是非常的有限的。如何把机器人环境、任务融合起来发展，如何把技术路线打通，去推动这方面的发展，也依然需要我们去探索。

第三个是人工智能。目前大模型非常热，但是真正把大模型部署到机器人上面，还是有很多的局限性。我们现在的大模型依然靠数据，有一定的泛化能力，还是需要优化。有了大模型，等于给我们提供了一个更加好的技术支持。如何把大模型融合到机器人里面，实现真正能够作业的具身智能，现在还是需要研究探索。