近日,联汇科技自研多模态大模型OmChat在多图评估基准测试集Mantis-Eval中取得优异成绩,在8B级别模型中排名第一,超越GPT-4V。在视频评估基准MMBench-Video中排名紧随GPT和Gemini之后。本次取得的最新成绩标志着联汇科技在处理复杂视觉和文本信息方面再次取得重要突破。
Mantis-Eval基准测试集是评估AI模型在理解和生成与多张图片相关语言任务能力的重要测试,MMBench-Video是全面评估长视频理解能力的基准测试,OmChat在两项重要测试中取得的优异成绩,超越其他行业头部模型,进一步展示了视频内容理解方面的卓越性能。
多模态大模型的一个主要挑战是如何高效管理和利用图像序列和视频帧的超长上下文数据。联汇科技自研OmChat 通过多阶段的训练,可以支持最长达 512K 词元,能够处理视频、图、文复杂的混合输入,具有卓越的时序关系判断和多图关系理解能力,能够精准捕捉、判断视频时序信息,洞察多图之间的复杂关系,达成长视频理解的重要突破。
随着OmChat等模型能力的突破,正在加速解锁更多行业应用场景,大模型技术在视频处理领域便捷优势将得到巨大释放,联汇科技为更多行业智能化升级提供最新的技术支撑。