随着机器人技术的不断演进,在经历过程序控制机器人、自适应机器人、智能机器人三代明显的进化过程后,机器人发展的整体方向和路径也呈现出了明确的态势,从“自动化”向“智能化”的演进成为必然的要求。 众所周知,作为人工智能多项技术和智慧的“集合体”,机器人几乎可以代表了当下人工智能技术的“最高成就”。近来,随着ChatGPT等大语音模型等人工智能应用的持续火热,AI大模型受到了行业内外空前的关注度,那么AI大模型+人形机器人会带来怎样的效果呢。 行业相关专家认为,人形机器人作为人工智能的物理载体,相当于为AI大模型打造的物理的身体,从这个角度来看,人形机器人起到了打破虚拟与现实之间边界的效果;此外,人形机器人还将持续拓展AI大模型的“实操”度,提升人工智能的“智能系数”。 人形机器人与人工智能 日渐共生、相互促进 相较于工业机器人,人形机器人硬件要求更为复杂和多元,例如特斯拉采用的电驱方案具备商业化的应用基础,预计全身共40个执行器;而机械手采用微型电机+腱绳驱动传动结构,单手6个电机,11个自由度,空心杯电机结构紧凑、能量密度高、能耗低,和人形机器人机械手需求契合度高。 正是AI大模型与人形机器人的互相依赖和相互促进,让整个人工智能技术迈出了通向通用人工智能的一大步——这也正是将机器人做成人形的终极考虑:为了使机器人的执行能力更加通用。据了解,AI大模型将从语音、视觉、决策、控制等多方面实现同人形机器人的结合,形成感知、决策、控制闭环,使机器人具备常识。 在语音层面,语言大模型为机器人的自主语音交互提供了解决方案,包括上下文理解、多语种识别、多轮对话、情绪识别、模糊语义识别等通用语言任务上,ChatGPT显著由于深度学习,表现出了不亚于人类的理解力和语言生成能力。 在视觉层面,通用视觉大模型的All in One 的多任务训练方案能使得机器人更好地适应人类生活场景:大模型的强拟合能力使人形机器人在进行目标识别、避障、三维重建、语义分割等任务时,具备更高的精确度;通用视觉大模型通过大量数据学到更多的通用知识,并迁移到下游任务中,基于海量数据获得的预训练模型具有较好的知识完备性,提升场景泛化效果。 而在决策层面,基于多模态的预训练大模型将增强机器人可完成任务的多样性与通用性,让其不局限于文本和图像等单个部分,而是多应用相容,拓展单一智能为融合智能,使机器人能结合其感知到的多模态数据实现自动化决策。 AI大模型强势发力之下 人形机器人未来倍具想象空间 近日,英伟达创始人黄仁勋在2023年ITF世界大会上发表演讲并提出,人工智能和加速计算正在共同改变技术行业。下一波人工智能浪潮将是一种被称为具身AI的新型人工智能,即能够理解、推理并与物理世界互动的智能系统,将“具身智能”的概念瞬间提升到了风口浪尖。 所谓“具身智能”,则指在机器智能领域中,通过将智能算法与物理实体的感知、行动和环境交互相结合,使机器能够以更自然、更智能的方式与环境进行交互和解决问题的能力。因此,也有不少行业内外人士认为,具身智能正是AI的终极形态。 在真实的物理环境下执行任务、解决问题——人形机器人自诞生起,其实就正是具身智能的一种物理承载。换而言之,人形机器人的逐步完善也为具身智能的落地提供了方向,是具身智能的重要应用场景,也将为具身智能的迭代优化提供方向和空间。 从AI到人形机器人,再到具身智能,究竟带动了多大的市场和科研热度呢?从专利数层面或可窥知一二。天眼查数据显示,机器人专利保持稳定增长,2022年申请专利2.3万余项;从类型上来看,发明专利与实用新型占比较高,两者之和占总数的9成。
与此同时,在AI大模型层面,单从“敲门砖”层面的自然语言处理领域来看,天眼查数据显示,从近年来专利申请的数量来看,还是保持了较为稳定快速的增长,自2018以来,其申请量的复合增长率达到61.2%;从类型上来看,发明专利占据绝对的领先地位,占比近98%。
逐年增长的研发热情,为人形机器人和具身智能带来了相当充足的发展想象空间。 行业人士认为,具身智能最大的特质就是能够以主人公的视角去自主感知物理世界,用拟人化的思维路径去学习,从而做出人类期待的行为反馈,而不是被动的等待数据投喂;人形机器人提供了各种基于人类行为的学习和反馈系统,为实现更复杂行为语义提供了迭代的基础和试验场,因此,人形机器人或将率先承载具身智能的能力。 诚然,在整个过程中,最重要的是AI的大脑,而AI的躯体从属于智慧大脑,按照这样的逻辑去打通人机之间的交互方式,让AI能够主动感知物理世界,拟人化的思维路径才能做到人类期待的行为反馈。而在当下,机器人还远没有人类期待的那般智能,但随着人工智能技术的进一步发展更迭,在AI大模型的持续加持之下,具身智能或将以更快的速度投入市场、走进人们的生活。 |