2024年多模态大模型（MLLMs）轻量化方法研究现状和展望报告_资讯

创始人

2024-12-19 11:23:06

今天分享的是：2024年多模态大模型（MLLMs）轻量化方法研究现状和展望报告

报告共计：14页

《2024年多模态大模型（MLLMs）轻量化方法研究现状和展望报告》由中国移动研究院业务研究所发布。报告指出，MLLMs在多任务中性能卓越，但庞大的规模和高昂成本限制了其应用，因此轻量化研究意义重大。

1. MLLMs概述

- 定义：融合大语言模型与多模态处理能力，能理解和生成多种模态数据，执行跨模态任务。

- 轻量化原因：高资源需求限制开发和部署，如训练耗时久、推理资源消耗大等，且云端运行模式存在问题，边缘设备应用受限。

2. 轻量化方法研究现状

- 三个核心模块优化

- 视觉编码器：多选用预训练模型，占总参数比例小，优化效果不如语言模型显著，常沿用大规模模型中的编码器。

- 预训练大语言模型：一是直接用小型轻量化模型，如phi2 - 2.7B等；二是采用模型压缩技术，如量化、剪枝等。

- 视觉 - 语言投影器：包括基于注意力、CNN、Mamba和混合结构四种轻量化方式。

- 视觉token压缩

- 多视图输入：输入高分辨率图像的低分辨率全局视图和局部视图。

- token处理：采用适应性视觉token减少方法。

- 多尺度信息融合：利用多尺度图像信息提取视觉特征。

- 视频特定方法：如VideoLLaVA将视觉表示统一到语言特征空间。

- 高效的结构：包括专家混合模型、Mamba和推理加速三个方向。

3. 展望

- 突破多模态信息处理局限，处理更多元模态标记。

- 扩展输入输出模态，适应更多样化输入类型。

- 发展可在边缘部署的轻量化模型，推动智能设备发展。

以下为报告节选内容