根据中国工程院近日公布的2023年增选当选外籍院士名单, 德国国家工程院院士,德国汉堡科学院院士张建伟教授当选中国工程院外籍院士。
作为机器人和人工智能领域的权威专家,张建伟教授曾多次受邀在机器人大讲堂做专题报告,其许多思想成果对观众产生了深远的影响。我们很荣幸能够在过去几年时间里将业内顶尖专家的观点传播给更多读者。本文精心整理了张院士近期的学术成就和行业见解,以飨读者。
张建伟院士多年从事及领导智能系统的感知、学习和规划、多传感信息处理与融合、跨模态信息表达、机器人操作系统、多模态人机交互等方向的研究,为工业4.0、未来出行、康复医疗、家庭助老服务等应用领域提供强人工智能的理论框架与计算模型,并领导智能系统的感知学习和规划、多传感信息处理与融合、复杂物体抓取与操作、智能机器人技术、人机交互的研究与开发等研发方向。
他领导开发出双臂装配系统、多模式人机交互平台、开放式机器臂及车体控制软件、全景视觉系统、爬壁清洁机器人、认知式电子教学界面等多项技术与系统。他应用多模式感知技术为汉堡空客公司开发的机舱空气气流三维测量系统已在空客350机型测试中使用;在中国,指导弗徕威公司研发团队开发出首款基于3G/4G/Wifi环境的智能服务机器人。他参与创立及孵化了数家人工智能、机器人企业,包括两家独角兽公司。
截至2023年3月,张建伟院士发表500余篇论文及专著,并多次获得国际会议最佳论文奖。张建伟院士任多个国际机器人及智能控制会议的专业组织委员,多份国际专业杂志编辑,IEEE Robotics Automation Society CAB A-VP。曾任机器人与自动化国际学术旗舰会议ICRA2011程序副主席,国际电气电子工程师协会多感器融合2012年总主席,世界智能机器人顶级会议IROS2015总主席,HCR2016、HCR2018主席等。
▍具身智能机器人的机遇与挑战
张建伟院士认为,智能机器人所取得的进展主要集中在底层建模和控制方面,但传统物理模型难以适应交互环境变化,迫切需要将模型训练与深度学习融合推进。未来的机器人大概率会是通用智能机器人,一个机器人既能够给人端茶倒水,又能到餐馆服务,还能到工厂干活。这将是智能机器人产业的大目标,也是一个非常艰巨的目标。
张建伟院士认为,要实现真正通用的具身智能,还需要几十年的研发和克服多种困难,首先是人工智能的可解释性和多模态处理,如何将知识重用、知识表达和记忆形式,与GhatGPT以及所谓的通用人工智能融合,以实现可推理、透明和智能的具身通用人工智能,这方面有许多制约因素,需要更长时间进行基础科学的融合攻关,包括与脑科学、心理学和各种社会科学的深度融合。随后,人类还需要创造出新的机电部件形式,包括刚柔耦合的驱动部件和优化自重比的整机结构件。这些部件具有良好的机动性和安全特性,对未来机器人的长期发展起到关键推动作用。而克服这些制约因素需要很长时间、跨学科合作,以及技术攻关的艰辛努力。
▍信息物理系统驱动智能未来
第四次工业革命的到来,让信息技术(IT)和运营技术(OT)的融合成为趋势,工厂进入了数字化转型阶段,而德国“工业4.0”战略给全球制造业发展带来启示,未来生产线上的人、机器、产品等对象都将与计算机里的虚拟世界连接,从而提升工厂的管理控制能力,并创造出巨大的商业价值。
张建伟教授认为,德国工业4.0模式下,数字化的过程充分利用了计算的能力和物理仿真的方法,将物理世界的对象在虚拟计算中创建一一对应的数字模型,从而能够分析各个自动化环节的合理性,例如机器人应该放在哪个位置,并测试出各种组合的可能性,最终找到最佳的实施解决方案。
目前,通过数字化CPS可以实现机器人等设备的仿真测试,包括机器人运动学和动力学的仿真,机器人离线编程等,甚至实现整条生产线的几何仿真,以帮助更好的实现车间布局设计。未来,信息物理系统还需要融入人类的仿真,从信息物理系统(CPS)到HCPS(Human-Cyber-Physical Systems),即融合人类、信息和物理设备,并充分发挥人工智能的作用。
▍多模态AI融合是实现通用人工智能的关键技术
在张建伟院士看来,当前,人工智能正助力信息物理系统不断升级,从信息处理、内容处理到未来的物理服务,人工智能自动化在制造、交通、大医疗、农业、家用、教育等方面都有着重要的应用场景。在这个融合多种最新数据的时代,AI、大数据、VR/AR、机器人、5G通讯等事物的有机融合将未来人类生活和工作带入新的平衡。
算力、算法和数据是构成人工智能的三要素。当前,技术被计算机算力的增长驱动。在今天的社会,处理器无处不在,每个人接触的处理器多达上百个,且大多是隐性的。这些处理器为未来的计算提供巨大的计算引擎,而计算引擎的背后,其消耗的燃料主要是大数据。从十年前的大数据,到如今的数据自动发现、数据整合以及数据自动决策;从处理数据本身到处理大型内容,大数据的生态系统在不断发展完善。
张建伟教授认为,在算法方面,大模型的算法日新月异,从起初简单的模式识别到大模型的涌现,每天都有新的算法出现。基于模型和AI控制、基于增强学习和AI控制的混合模式在当前已有不少实例。在语言-图像预训练的模型方面,通过将文本和图像做成统一的表达,来进行语言和文字的学习。多种模态信息的模型的融合,将打通各个模态信息之间的关系,从而实现多维度人机交互,实现通用人工智能。
▍大模型未来趋势
张建伟教授认为,从单模态的语言智能到多模态的语言智能,再到多模态的大语言模型增强,大模型未来将迈向巨型多模态的大型语言模型,其重点是多模态的表达与理解能力。基于 Transformer 固有的多模态融合能力,进行多种模态(文本、信号、图像、视频、点云等)的语义实体对齐,并构建多模态语义关系,将激发更强的语言表达与感知理解能力,如识图、识音,一键分割、一键检测跟踪等,赋能真实物理世界的感知、理解、预测、决策、规划与控制等。
未来,大模型的内容理解与生成的机器化、自动化与人工智能化在不同领域的应用,将带来整体生产力与生产效率的极大提升,从而赋能经济社会发展。同时,通过定制化的人工智能模型和产业生态,能够获得不同垂直领域的人类专家对相关问题的解决方案,从而推动数智化和智能制造等千行百业的创新发展。
机器人大讲堂再次祝贺张建伟教授当选中国工程院外籍院士!
文章素材来源:国脉智库、科协频道、OFweek工控网