今天分享的是:多模态大模型:开放世界理解-谢春宇-49页
报告共计:49页
该文档主要围绕多模态大模型展开,具体内容包括:
- 背景与意义
- 技术发展:ChatGPT的出现标志着自然语言处理技术进入新阶段,引发了对通用人工智能的研究热潮,增加视觉模态输入的GPT - 4进一步拓展了应用可能性。
- 视觉能力重要性:视觉能力是通用人工智能的基础能力,人类智能高度依赖视觉感知,多模态大模型有助于理解世界和进行交互。
- 多模态大模型发展
- 技术路线
- 路线选择:多模态大模型的研究路线分为原生多模态和单模态专家模型缝合路线,前者理论上限高但训练成本高,后者经济实用,多数企业和学界采用。
- 代际更替:多模态LMM从2022年底发展至今,经历了三代更替,包括第一代的原型验证、第二代的增加目标定位能力和第三代解决高分辨率输入、图文模态竞争和多模态Scaling Law等问题。
- 模型示例:介绍了多种多模态大模型,如MiniGPT4、LLaVA、LLaVA - 1.5、DeepSeek - VL、Idefics2和InternVL2等,包括它们的模型结构、训练方式和特点。
- 360多模态大模型探索
- 模型探索:360选择单模态专家模型缝合路线,打造多模态语言模型SEEChat,后升级为360VL,具有严格超集和OVD等能力。
- 业务落地实践:360VL在智能硬件、图像标签化、视频监控和安防巡检等多个场景落地应用,为企业提供数字化解决方案。
总之,多模态大模型是当前人工智能研究的重要方向,360在该领域进行了探索和实践,致力于推动多模态大模型在实际应用中的发展。
以下为报告节选内容