北大机器人当上亚运志愿者,全靠学生把多模态大模型结合具身智能
量子位
2023-10-19 10:25:00
0

原标题:北大机器人当上亚运志愿者,全靠学生把多模态大模型结合具身智能

北大 把投稿扔向 凹非寺

量子位 | 公众号 QbitAI

亚运会导游,原来背后离不开北大学生团队

且看这个智能导游,它可不是一般人:

外观看上去像一辆小车,四个轮子在地面上快速灵活移动。

上面安装了机械臂,配有摄像头及语音等交互设施,使其能够对周围环境和需要执行的任务进行识别与理解

据悉,这名导游机器人系统由北大计算机学院HMI团队研发,它结合了多模态大模型和具身智能。

在亚运会期间,它为视障人士提供引领和导航等帮助,并可解析视障人士的需求并完成相应任务,如帮助他们捡拾掉落的物品等。

具身智能,搭载多模态大模型那种

那么,这位具身智能导游是怎么炼成的?

在研究员仉尚航的指导和支持下,北大学生们形成了一种创新路径,即设计感知生成一体化的多模态大模型,以实现对各种视觉场景的精准感知与理解,并生成准确丰富的语言描述。

之所以这样设计,是因为这个导游最初就设计定位为服务残障人士、老年人、少数民族等——当前的技术落点,还没有完全解决他们的需求。

“少数民族的观众可能面临语言障碍,而残疾人士可能需要更多的辅助工具或特别的服务,以便更好地享受比赛。”团队成员、北大学生庄棨宁表示,多模态大模型是课题组的重点研究方向,于是一个把多模态大模型和具身智能结合起来,研发一个专门服务残障人士观赛的AI系统的想法,诞生了。

于是,多模态爱心助手亮相亚运会。

多模态爱心助手所搭载的系统,基于团队自研的感知生成一体化通用多模态大模型

该系统集成了大模型的泛化感知能力和涌现能力。

同时,在爱心助手身上,多模态大模型和具身智能结合了起来,为机器人赋予更加智能的大脑,使其可以将人类复杂需求转化为具体行动指令。

它能做的事情,体现出一体化处理能力,包括:

  • 场景感知,能够识别图像中的特定目标或特征;
  • 场景解析,能够为图像生成描述性文本;
  • 行为决策与规划,具备基于图像和文本信息进行决策和规划的能力。

考虑到机器人会面对不同场景,需要具备快速适应新场景的泛化能力,团队设计了基于端云协作的大小模型协同高效微调,提升模型的泛化性,使其可以持续适应不同的场景。

举个

如果有运动员用户说“我渴了”,机器人听到这句话后,完成转身拿水——递到用户手中,过程看似简单,实际上涉及了一系列子任务

  • 首先捕捉“我渴了”这句语音信号,然后通过语音识别技术,转换为文字;
  • 理解“我渴了”这句话的含义,即用户现在需要水;
  • 通过良好的感知能力,利用CV技术,识别、定位瓶装水;
  • 规划来到瓶装水面前的路线,涉及路径规划算法;
  • 控制自身动作,根据路径规划,来到水面前;
  • 准确抓住瓶装水,涉及视觉检测、机器人控制系统和抓取的相关技术;
  • 规划返回路径,并控制 自身动作,将水送到说话者的手中。

上述的每一个子任务,都需要大量的研究和工程实践。

不仅如此,机器人还需要能够处理在训练数据中未曾出现过的新情况,也就是说,模型需要具有强大的泛化能力,能够在新的、未知的环境中有效地工作。

为了提升机器人在开放环境下的持续性泛化能力,团队构建了一个端云协作的持续学习系统

这一系统的设计旨在兼顾终端计算的个性化、隐私保护和低通信成本等优势,同时也充分利用云端计算的大规模计算资源、大量标注数据以及卓越的泛化能力。

还研发亚运会赛事解说AI系统

据悉,杭州亚运会的多模态多语种视频解说系统,也出自这个团队之手。

基于多模态大模型,团队通过自研的X-Accessory一体化大模型工具链,设计了多模态多语种视频解说系统,在亚运会期间用于乒乓球、跆拳道、跳水、体操等赛事。

这个解说系统的特点在于,不仅能够理解和分析正在进行的比赛,生成实时的解说内容,还可以根据观众的喜好提供个性化的解说服务,包括将解说内容翻译成多种语言,包括维吾尔语、阿拉伯语等。

除了应用在本次亚运会,团队在大模型方面还有许多其他成果。

“多模态大模型是我们组研究的核心,目前也取得了一定的成果。”北京大学计算机学院博士后王冠群介绍,“除了这次自研的感知生成一体化通用多模态大模型、大小模型协同训练与部署,我们还关注多模态生成式大模型Agent设计、大模型记忆机制设计、面向多场景的智能医疗多模态大模型集群、通用大模型适配器等。”

就拿团队进行的多模态生成式大模型Agent设计来说。

单模态模型无法有效地结合视觉、听觉和文本等多种模态信息,这种局限性在复杂的实际场景,如虚拟助手、机器人交互和智慧城市中,可能导致效果并不理想。

因此,团队开发了一种多模态生成式大模型Agent,将各种模态的优点结合起来,例如视觉的细节捕捉能力、听觉的时序特性和文本的结构化知识。

这样的综合性设计,将有助于推动生成式模型向更加实用和高效的方向发展,满足未来多种复杂应用场景的需求。

在更复杂的应用场景,团队还研究过面向多场景的智能医疗多模态大模型集群

他们设计和实现了一组智能医疗多模态大模型集群,包括面向患者的个性化医疗知识问答多模态时序大模型、面向医生的临床影像报告生成多模态大模型和面向导诊场景的检索增强大语言模型。

这样一来,能使大模型技术适配临床场景,满足患者-医生-医院多方诉求,解决行业痛点,推动大模型在医疗领域的落地应用。

杭州亚运会期间科研团队合影 (第一排左起:张雨泽、庄棨宁、谢爱丽、仉尚航、张融宇、罗峪霖、王振宇;第二排左起:侯沂、戴鸿铭、王昊、李忱轩、张启哲、刘家铭、王冠群)

「量子位2023人工智能年度评选」开始啦!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名

MEET 2024大会已启动!点此了解详情。

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

相关内容

热门资讯

俄宇航员打破国际空间站单次停留... 感谢IT之家网友 的线索投递! 9 月 21 日消息,俄罗斯国家航天集团公司昨日(9 月 20 日...
当固态电池爆炸时,蘑菇云会出现... 固态电池要是自燃,是不是会有蘑菇云?固态电池充电一次比一次跑得远,去年刚2000公里,今年己到400...
上海证券:“理科竞赛”大模型带... 上海证券研报指出,OpenAI发布“理科竞赛”大模型,后训练ScalingLaws带来算力倍数增长。...
许振超:精益求精做好本职工作,... 新华社青岛9月20日电 题:许振超:精益求精做好本职工作,成为无愧于时代的劳动者 新华社记者王凯 许...
大批寻呼机爆炸,11死4000... 来源:牲产队2024 寻呼机能爆炸伤人,那手机、笔记本电脑甚至汽车...不敢想象!9月17日下午3...
抖音去水印网页怎么去?分享四种... 在抖音上,我们经常能看到一些有趣或者高质量的视频,想要下载下来保存或者二次创作,但往往会被视频上的水...
美的集团申请暖通设备相关专利,... 金融界 2024 年 9 月 20 日消息,天眼查知识产权信息显示,重庆美的通用制冷设备有限公司和美...
原创 库... 库克做梦没想到苹果16新品刚发布的档口,会碰到了黎巴嫩的传呼机爆炸事件。虽然这事表面上看,跟苹果公司...
长春光机所重大突破! 日前 中国科学院长春光机所 依托自主研发的 中药材道地品质高光谱检测技术开发出 一系列中药材品质检测...
原创 再... 在这个科技日新月异的时代,每一次技术的飞跃都如同星辰般璀璨,照亮人类前行的道路。最近,中国北斗卫星导...
日月谭天丨全球台胞共看总台秋晚... “我在国外看总台秋晚,真是美轮美奂”“大手笔大制作,很多新技术之前都没见过”“最喜欢《再回首》,在国...
潍坊奎文:元宇宙赋能智慧医保,... 山东省潍坊市奎文区聚焦及时解决群众医保急难愁盼问题,结合元宇宙技术创新,加大数字医保探索力度,将服务...
9月秋台风频刷“存在感”?专家... 央视网消息:9月,秋台风频刷“存在感”,9月初,今年第11号台风“摩羯”先后登陆菲律宾吕宋岛、我国海...
原创 石... 原文刊载于《中国科学院院刊》2024年第7期“专题:科技创新引领现代化产业体系建设” 窦立荣1,2 ...
厦门鸿基伟业复材科技取得辐条预... 金融界 2024 年 9 月 18 日消息,天眼查知识产权信息显示,厦门鸿基伟业复材科技有限公司取得...
华为三折叠手机今日开卖 知名消费电子分析师郭明錤昨日发文称,其最新供应链调查显示,由于市场需求热度较高,故翻倍上调华为三折叠...
浙江移动:解锁新质生产力的“四... 人民网杭州9月20日电 (方彭依梦)今天上午,以“承智启新质,四新向未来”为主题的浙江移动落实新质生...
原创 西... 在中国有一所神奇的高校,它被誉为“国防七子”之一。 这所学校的学生,大半毕业后都选择投身国防事业,航...
首销打擂台,华为风头盖过苹果! 9月20日,手机江湖很热闹,苹果和华为打起了“擂台”。8:00,苹果新一代旗舰手机iPhone 16...
华为三折叠屏手机秒光 余承东称... 21世纪经济报道记者倪雨晴、实习生翁丽桦 深圳报道 9月20日上午,华为Mate X三折叠屏手机正式...