文档处理效能飙升!浩鲸科技“文档大模型”核心技术揭秘!
创始人
2024-09-25 19:03:14
0

机器之心发布

机器之心编辑部

在当今大模型技术日新月异的背景下,数据已跃升为构建企业大模型知识库、优化训练与微调,乃至驱动模型创新不可或缺的核心要素。

对于企业来说,积累的宝贵知识广泛散布于形式多样的电子文档之中,这些文档不仅格式多样,其内容质量亦呈现出显著的差异性。对海量数据进行精细化的清洗与预处理工作,已成为提升数据价值、确保模型精准高效的关键一环,如何有效提取并利用这些宝贵的知识资源,成为了摆在所有企业面前的一道难题。

9 月 20 日,老牌数字化转型技术服务提供商浩鲸科技在云栖大会期间,成功举行鲸智大模型技术体系发布会,作为企业内部的 “资产沉淀专家”,鲸智文档大模型重磅首发。

据了解,本次发布的 “鲸智文档大模型”,专门针对企业文档场景构建了一组垂直领域模型,浩鲸科技大模型创新中心总经理王玉木表示,鲸智文档大模型与同类产品最大的差异在于,它提供了可快速价值落地的整体性方案,不仅包含了文档大模型能力,还提供了多模态文档工具链 DocChain 和开箱即用的软硬件一体机,基于垂直模型能力和软硬件相互配合,可帮助企业实现文档的知识抽取、知识融合,直至知识推理和问答的全流程覆盖,为企业知识资产的沉淀、高效管理与利用提供了有效通路。

鲸智文档大模型的实践逻辑

浩鲸科技成立于 2003 年,立足于电信行业,智慧触角已触及政务、电力、泛零售等多个领域,迄今已为全球 80 多个国家和地区的电信运营商、700 + 政企客户提供全栈数智化产品技术服务。

“鲸智文档大模型” 始于浩鲸科技 20 余年的数据治理、知识沉淀能力积累,作为垂直领域模型,它从端到端解决场景需求的视角出发,结合了大小模型协作等思路,基于基础大模型构建一套紧密配合的模型组合,主要分三个层面:

  • 底层,精准知识提取:通过标题提取、表格提取、版面分析等多种模型,精准捕捉文档中的关键信息,确保内容的完整提取。同时,知识密度分类与语义压缩模型的加入,进一步提升了知识提取的效率与质量。
  • 知识提取中,“标题提取模型” 是最为优先的。文档标题可用于文档知识块拆分、知识块召回等场景,可解决指代消歧等问题,具有重要作用,但在服务企业过程中,大部分文档格式不规范,直接影响了知识问答成功率。“标题提取模型” 基于基础大模型进行微调训练,强化了标题识别能力,能够用于从正文中识别标题,补全缺失标题等场景,可以解决企业文档标题和目录不规范,甚至标缺失的问题,有效提升了成功率。

  • 中间层,深度知识融合:在知识块的基础上,进行抽象总结与多模态数据关联,将碎片化知识整合为系统化的知识体系,并映射至高维向量空间,为后续的知识推理奠定坚实基础。浩鲸科技积累的的主要模型有:
  • 文本总结模型:生成短文本摘要,为知识萃取提供支持;
  • 文本向量模型:提供更加准确的文本特征提取能力,为知识的召回提供保障;
  • 界面识别模型:图片特征提取模型,支持图文向量对齐;
  • 文本重排模型:对多模态,多路径召回的文本内容,进行重排序,进一步提升回答的准确率。
  • 其中,“界面识别模型” 强化了对用户手册中最常见软件界面的支持,主要得益于很多用户都喜欢使用截图来对知识库进行提问。该模型训练数据提取自浩鲸科技研发云平台,将软件测试报告中的软件界面图片和内容来构建训练集,并使用反转、随机截取、变形、叠加反光等手段扩增图片库,实现了一个支持软件界面匹配的图片识别模型,解决了现有大模型在软件界面识别方面效果一般的问题。该模型的应用显著提升了图片搜索的准确率,文本检索图片召回成功率提升 25%,图片检索图片召回成功率提升 40%。
  • 上层,智能知识推理:构建了知识问答模型和 BPO 优化模型。面向知识问答任务场景,构建了针对场景优化的问答模型,强化根据参考知识信息进行精准回答,减少幻觉。另外一方面通过优化用户的输入提示(prompt)来提高模型输出与人类偏好的对齐程度,提升问答的准确性。

DocChain:文档处理的智慧引擎

为深度赋能企业用户,浩鲸科技依托先进的鲸智文档大模型,匠心打造了多模态文档工具链 ——DocChain。该产品不仅实现了企业文档向宝贵知识资产的转化,更构建了一个集文档知识精准提取、高效检索与智能问答对话于一体的大模型知识服务平台。DocChain 以其卓越的多模态处理能力、广泛的文档格式兼容性和极致的性能优化,成为企业文档处理领域的得力助手。

  • 智能提取,精准高效:集成前沿 NLP 算法与模型,实现文档处理速度与精度的双重飞跃。抽取精度高达 98%,问答响应准确率超越 80%,让信息获取更加智能、便捷。
  • 格式兼容,全面广泛:拥抱多样化文档生态,支持超过 30 种文件格式,特别兼容 OFD 等国产信创标准,确保各类文档无缝接入,处理高效且精准,满足企业多样化需求。
  • 多模态处理,深度解析:深度解析文档内容,无论是文本、目录、图片、表格、链接还是页码,均能精准拆分与提取。支持多元模态检索,无论是文找文、文找图,还是图找图,均能游刃有余。

一体机:解决企业私域场景下低成本上线大模型的诉求

浩鲸科技为解决客户落地大模型过程中算力硬件缺乏、技术人员少、安全要求高等难题,同时推出了文档大模型软硬件一体机。一体机内置了高性能算力,并且预装了大模型以及 DocChain 应用,可为企业快速部署和验证智慧文档处理服务。

从部署上来说,文档大模型一体机具备开箱即用、数据安全可控、性能无忧、快速集成等几个特点,专为轻量级场景设计,私有化部署解决企业隐私保护、数据安全等痛点,低成本实现企业内部大模型快速上线,覆盖通用知识检索、文档问答、服务支撑及品牌宣传等,可帮助企业迅速构建专属大模型问答系统。

随着基础大模型的发展,以及模型增量训练的知识冲突问题日益凸显,RAG 逐渐成为企业智能知识库的标准解决方案,然而知识召回的准确率和完整性成为了影响问答效果的关键因素。

鲸智文档大模型,借鉴了 “大模型 + 小模型” 的思路,基于基座大模型构建了一套大小模型的组合,形成了一套垂直大模型,可以端到端实现垂直应用场景的需求。当前,鲸智文档大模型在多模态识别、检索和精准召回上做了很多的尝试,也取得了一定的成果。

AI 大模型的迅速发展,让企业沉淀的大量文档的知识理解和处理带来了转机,浩鲸科技正通过持续的技术创新与产品优化,推动大模型技术与企业领域知识深度融合,实现企业文档向有价值的资产转化,为企业创造更多价值。

相关内容

热门资讯

“山河四省”之一,迎一所985... 9月24日上午,东方航天港产业发展大会在山东烟台举行。会议期间,武汉大学与烟台市人民政府签署全面合作...
西班牙网红夫妇吐槽西藏房车咖啡... 据上游新闻报道,近日,“西班牙网红夫妇吐槽西藏厕所肮脏咖啡太贵”等话题引发网友热议。此前,与丈夫一起...
华为首发超薄膜天线设计路由器!... 【CNMO科技消息】在华为秋季全场景新品发布会上,华为推出其性能最强的Wi-Fi 7路由器——华为路...
【旗舰】刘作虎晒FindX8对... 前几天,OPPO首席产品官、一加创始人刘作虎在微博晒出了疑似OPPO Find X8和iPhone ...
“为了迎接‘蛟龙号’,我兴奋得... 昨日(24日) 中国远洋科考船 “深海一号”携“蛟龙号”载人潜水器 首次访问香港 受到社会各界 特别...
星途星纪元上线苹果iPhone... IT之家 9 月 25 日消息,奇瑞旗下星途汽车官方宣布,星纪元系列现已支持 iPhone 数字钥匙...
衰老研究“风华正茂” 健康老去... 转自:科技日报 我们为何会衰老?我们究竟有多老?如何健康地老去? 这是近日召开的香山科学会议上,与会...
文档处理效能飙升!浩鲸科技“文... 机器之心发布 机器之心编辑部 在当今大模型技术日新月异的背景下,数据已跃升为构建企业大模型知识库、优...
元创未来|一款游戏从构想到走进... 编者按:徐汇区作为上海首提“元宇宙”入政府工作报告的城区,将元宇宙与人工智能、文化创意等区域优势特色...
李彦宏:智能体是我最看好的AI... 新浪科技讯 9月25日上午消息,在2024百度云智大会上,百度创始人、董事长兼首席执行官李彦宏以线上...
5.0GHz!高通骁龙8 Ge... 【太平洋科技快讯】此前高通官方发布信息表示骁龙8 Gen 4芯片于2024年10月21日至23日在美...
英特尔,AI时代的诺基亚? 导读:但不知何故,我们输了。 作者:毕安娣 编辑:王靖 文章来源:字母榜(wujicaijing) ...
一箭五星!力箭一号火箭发射看点... 9月25日7时33分,力箭一号遥四商业运载火箭在我国酒泉卫星发射中心发射升空,将搭载5颗卫星顺利送入...
抢iPhone 16,年轻人“... 文 | 指北Focus 前几天,苹果16系列产品首发,全国各地的直营店都十分火热。这也是意料之中,...
南京晨报小记者走进省农科院 体... 晨报讯(通讯员 凡燕 南京晨报/爱南京记者 徐永现 摄影报道)9月22日,秋风送爽,硕果累累,当天也...
多型航空航天重磅装备将首次亮相... 【环球时报-环球网报道 记者樊巍】第十五届中国国际航空航天博览会将于11月12日至17日在珠海举行。...
字节跳动将在全球范围内关闭Ti... 鞭牛士报道,9月24日消息,据外电报道,字节跳动表示将于 11 月关闭其音乐流媒体服务 TikTok...
TÜV南德在PT展展示一站式网... (全球TMT2024年9月25日讯)9月25日-27日,第三十二届中国国际信息通信展览会(PT展)在...
湖南图书馆举办专题学术会议致敬... 人民网长沙9月24日电 9月23日,湖南图书馆举办“文脉相传:新时代的文化自信与使命担当”暨湖南图书...
Meta称不会在新法律生效前立... Meta Platforms公司发言人当地时间9月24日表示,Meta不会立即加入《人工智能公约》,...