金融界2024年3月27日消息,据国家知识产权局公告,浪潮电子信息产业股份有限公司申请一项名为“一种视频语言理解方法、装置、设备及可读存储介质“,公开号CN117765450A,申请日期为2024年2月。
专利摘要显示,本发明涉及计算机视觉技术领域,具体公开了一种视频语言理解方法、装置、设备及可读存储介质,除视频样本自带的注释文本外,还通过获取如搜索关键词或视频分段信息等视频样本的关联信息,以利用注释文本和关联信息来构建视频样本对应的文本样本,从而弥补视觉模态与文本模态弱相关的问题,在进行视频语言模型的训练时可以为模型提供更为丰富的上下文信息以帮助模型更好地理解视频内容;在视频语言模型的训练中基于该文本样本与视频样本进行视觉文本跨模态编码,解决了传统视频语言模型泛化能力差的问题,提升了计算机视觉的视频理解能力,进而可以精确响应视频语言相关问题。
来源:金融界