~~~雅各布专栏——专注行业第一品牌商业模式研究~~~
原作者:Tom Davenport,Maryam Alavi
许多公司都在尝试使用 ChatGPT 和其他大型语言或图像模型,他们普遍发现,这些系统能以清晰的语言表达复杂的想法,令人惊叹。然而大多数用户意识到,这些系统主要是基于互联网信息进行训练的,无法回应有关专有内容或知识的提示或问题。
利用公司的专有知识对公司的竞争和创新能力至关重要,尤其是在当今动荡的环境中。通过有效、灵活地创造、管理、应用、重组和部署知识资产和专门技能,可以推动组织创新。然而,组织内的知识通常是通过各种来源和形式产生和获取的,包括个人思想、流程、政策、报告、业务交易、讨论板以及在线聊天和会议。因此,公司的综合知识往往无法统计,难以有效或高效地组织和部署到需要的地方。
以大型语言和图像生成人工智能模型为形式的新兴技术为知识管理提供了新的机遇,从而提高了公司业绩、学习和创新能力。例如,在对一家财富 500 强企业的业务流程软件供应商进行的一项研究中,基于生成式人工智能的客户支持系统提高了客户支持人员的工作效率,改善了客户保留率,同时使客户获得了更多积极反馈。该系统还加快了新手座席人员的学习和技能发展。
与该公司一样,越来越多的组织正试图利用大型语言模型(LLM)的语言处理技能和一般推理能力来捕捉和提供广泛的内部(或客户)访问其自身智力资本的机会。它们将其用于以下目的:向面向客户的员工通报公司政策和产品/服务建议,解决客户服务问题,或在员工离职前获取他们的知识。
这些目标在 20 世纪 90 年代和 21 世纪初 "知识管理"运动的鼎盛时期也曾出现过,但大多数公司认为当时的技术不足以完成任务。然而,今天,生成式人工智能重新点燃了在整个组织内外获取和传播重要知识的可能性。正如一位为此目的使用了生成式人工智能的经理所说:"我感觉自己的生活中突然多了一个喷气背包"。尽管目前取得了进步,但过去造成知识管理困难的一些因素依然存在。
基于生成式人工智能的知识管理技术
将组织的特定领域知识纳入 LLM 的技术正在快速发展。目前,有三种将专有内容纳入生成模型的主要方法:
1. 从零开始训练 LLM
一种方法是从头开始创建和训练自己的特定领域模型。这种方法并不常见,因为这需要大量高质量数据来训练大型语言模型,而大多数公司根本没有这样的数据。此外,它还需要相当强大的计算能力和训练有素的数据科学人才。
彭博社(Bloomberg)就是采用这种方法的公司之一,该公司最近宣布,它已为金融特定内容创建了 BloombergGPT,并为其数据终端创建了自然语言界面。彭博社拥有 40 多年的金融数据、新闻和文件,并将其与来自财务文件和互联网数据的大量文本相结合。彭博社的数据科学家总共使用了 7000 亿个词块,即大约 3500 亿个单词、500 亿个参数和 130 万小时的图形处理单元时间。很少有公司拥有这些资源。
2. 微调现有 LLM
第二种方法是对现有的 LLM 进行 "微调 "训练,为已经接受过常识和语言交互训练的系统添加特定领域的内容。与从头开始创建一个新模型相比,这种方法涉及调整基础模型的某些参数,通常需要的数据要少得多--通常只需要数百或数千份文档,而不是数百万或数十亿份--所需的计算时间也要少得多。
例如,谷歌对其医学知识模型 Med-PaLM2(第二版)进行了微调训练。该研究项目以谷歌的通用 PaLM2 LLM 为起点,并根据从各种公共医疗数据集中精心策划的医学知识对其进行了重新训练。该模型能够回答 85% 的美国医学执照考试问题,比第一版系统高出近 20%。尽管取得了如此快速的进展,但在根据科学事实性、精确性、医学共识、推理、偏差和危害等标准进行测试,并由来自多个国家的人类专家进行评估后,开发团队认为该系统仍需大幅改进,才能用于临床实践。
不过,微调方法也有一些限制。虽然它所需的计算能力和时间远远少于训练一个 LLM,但训练成本仍然很高,这对谷歌来说不是问题,但对许多其他公司来说却是问题。它需要大量的数据科学专业知识;例如,谷歌项目的科学论文就有 31 位共同作者。一些数据科学家认为,它最适合的不是添加新内容,而是添加新的内容格式和风格(如聊天或像威廉-莎士比亚那样写作)。此外,一些 LLM 供应商(如 OpenAI)不允许对其最新的 LLM(如 GPT-4)进行微调。
3. 提示调整现有 LLM
对于非云供应商公司来说,定制 LLM 内容的最常见方法可能就是通过提示进行调整。在这种方法中,原始模型被冻结,通过上下文窗口中包含特定领域知识的提示进行修改。经过提示调整后,模型就可以回答与这些知识相关的问题。这种方法是三种方法中计算效率最高的,而且不需要大量数据来训练新的内容域。
例如,摩根士丹利(Morgan Stanley)使用提示调整来训练 OpenAI 的 GPT-4 模型,使用的是精心策划的 10 万份文档集,其中包含重要的投资、一般业务和投资流程知识。其目的是为该公司的财务顾问提供准确且易于获取的知识,帮助他们了解在为客户提供建议时遇到的关键问题。及时培训系统在私有云中运行,只有摩根士丹利员工才能访问。
对于企业来说,这也许是三种方法中最容易采用的一种,但也并非没有技术挑战。当使用文本等非结构化数据作为 LLM 的输入时,数据可能会过大,重要属性过多,无法直接输入到 LLM 的上下文窗口中。另一种方法是创建向量嵌入(vector embeddings)--由另一个预先训练好的机器学习模型(摩根士丹利使用的是 OpenAI 提供的名为 Ada 的模型)从文本中生成的数值数组。矢量嵌入是一种更紧凑的数据表示方式,它保留了文本中的上下文关系。当用户在系统中输入提示时,相似性算法会决定哪些向量应提交给 GPT-4 模型。虽然有几家供应商正在提供一些工具来简化提示调整过程,但这一过程仍然非常复杂,大多数采用这种方法的公司都需要大量的数据科学人才。
不过,如果所需的内容已经存在,这种方法并不需要非常耗时或昂贵。例如,投资研究公司晨星公司(Morningstar) 在其基于生成式人工智能的 Mo 研究工具中使用了提示调整和向量嵌入。它整合了晨星公司的 10,000 多项研究成果,在对系统进行了一个多月的开发后,晨星公司向其财务顾问和独立投资者客户开放了 Mo 的使用。晨星甚至将 Mo 附在一个数字化身上,让它说出自己的答案。这种技术方法并不昂贵;在使用的第一个月,Mo 回答了 25,000 个问题,每个问题的平均成本为 0.002 美元,总成本为 3,000 美元。
内容整理和管理
传统的知识管理是将文档加载到微软 Sharepoint 等讨论数据库中,而对于生成式人工智能而言,在以任何方式定制 LLM 之前,内容都必须是高质量的。在某些情况下,如谷歌 Med-PaLM2 系统,有广泛可用的医学知识数据库,这些数据库已经过整理。否则,公司就需要依靠人工编辑来确保知识内容的准确性、及时性和不重复性。例如,摩根士丹利(Morgan Stanley)在菲律宾有一个由 20 多名知识经理组成的小组,他们不断根据多个标准对文件进行评分;这些标准决定了文件是否适合纳入 GPT-4 系统。大多数没有经过精心整理的内容的公司都会发现,仅仅为此目的而这样做是具有挑战性的。
摩根士丹利还发现,如果内容作者了解如何创建有效的文档,那么保持高质量的知识就会容易得多。他们需要学习两门课程,一门是关于文档管理工具,另一门是关于如何编写和标记这些文档。这是该公司内容管理方法的一个组成部分--一种获取和管理重要数字内容的系统方法。
在晨星公司,内容创建者正在学习什么类型的内容适合使用 Mo 系统,什么类型的内容不适合使用 Mo 系统。他们将内容提交到内容管理系统,然后直接进入提供 OpenAI 模型的矢量数据库。
质量保证和评估
管理生成式人工智能内容的一个重要方面是确保质量。众所周知,生成式人工智能有时会产生 "幻觉",自信地陈述不正确或不存在的事实。这种类型的错误可能会给企业带来问题,但在医疗保健应用中可能是致命的。好消息是,根据特定领域信息调整 LLM 的公司发现,幻觉问题比开箱即用的 LLM 要小,至少在没有扩展对话或非业务提示的情况下是这样。
采用这些方法进行生成式人工智能知识管理的公司应制定评估策略。例如,对于旨在回答金融和投资问题的 BloombergGPT,该系统在公共数据集金融任务、命名实体识别、情感分析能力以及一系列推理和通用自然语言处理任务上进行了评估。Google Med-PaLM2 系统最终面向回答病人和医生的医疗问题,其评估策略要广泛得多,反映了医疗领域准确性和安全性的重要性。
在摩根士丹利,生死并不是一个问题,但为金融和投资问题提供高度准确的回答对公司、客户和监管机构来说非常重要。在向任何用户发布之前,系统提供的答案都经过了人工审核员的仔细评估。然后由 300 名财务顾问试用了几个月。作为持续评估的主要方法,摩根士丹利有一套已知正确答案的 400 个 "黄金问题",每次对系统进行任何改动时,员工都会用黄金问题对其进行测试,以了解是否出现 "倒退 "或答案不够准确的情况。
法律和管理问题
与 LLM 部署相关的法律和治理问题十分复杂且不断演变,导致了涉及知识产权、数据隐私和安全、偏见和道德以及虚假/不准确产出的风险因素。目前,LLM 输出的法律地位尚不明确。由于 LLM 不会生成用于训练模型的任何文本的精确复制品,许多法律观察家认为版权法中的 "合理使用 "条款将适用于 LLM,尽管这一点尚未在法庭上得到验证(而且并非所有国家的版权法中都有此类条款)。无论如何,对于任何广泛使用生成式人工智能来管理知识(或大多数其他用途)的公司来说,让法律代表参与经过调整的 LLM 的创建和管理过程都是一个好主意。例如,在晨星公司(Morningstar),该公司的律师帮助创建了一系列 "预提示"(pre-prompts),告诉生成式人工智能系统应该回答哪些类型的问题,以及应该礼貌地回避哪些问题。
用户对公开LLM的提示被用于训练未来版本的系统,因此一些公司(如三星)担心机密和私人信息被传播,禁止员工使用LLM。不过,大多数公司利用特定领域内容调整 LLM 的工作都是在模型的私有实例上进行的,公众用户无法访问,因此这应该不是问题。此外,一些生成式人工智能系统(如 ChatGPT)允许用户关闭聊天记录的收集,这样即使在公共系统上也能解决保密问题。
为了解决保密和隐私问题,一些供应商正在为 LLM 提供先进和改进的安全保障功能,包括清除用户提示、限制某些主题、防止源代码和专有数据输入到可公开访问的 LLM 中。此外,企业软件系统供应商正在其产品和服务中加入 "信任层"。例如,Salesforce 在其人工智能云套件中加入了爱因斯坦 GPT 功能,以解决希望快速部署 LLM 功能的公司与这些系统在商业环境中造成的上述风险之间的 "人工智能信任差距"。
塑造用户行为
易用性、广泛的公共可用性以及跨越各种知识领域的有用答案,使得员工在某种程度上无引导地、有机地快速采用了基于生成式人工智能的知识管理。例如,最近的一项调查显示,超过三分之一的受访员工在工作中使用了生成式人工智能,但68%的受访者并未告知上司他们正在使用该工具。为了实现生成式人工智能应用于知识管理的机遇并管理其潜在风险,企业需要发展一种透明和问责的文化,使基于生成式人工智能的知识管理系统取得成功。
除了执行政策和指导方针外,用户还需要了解如何安全有效地将人工智能生成能力融入任务中,以提高绩效和生产率。生成式人工智能功能,包括对上下文和历史的感知、通过聚合或组合不同来源的知识生成新内容,以及数据驱动的预测,可以为知识工作提供强大的支持。基于生成式人工智能的知识管理系统可以自动执行信息密集型搜索流程(例如法律案例研究),以及大容量、低复杂度的认知任务,如回复常规客户电子邮件。这种方法提高了员工的工作效率,使他们能够将更多精力投入到复杂的决策和问题解决工作中。
通过培训或政策灌输的一些具体行为可能是可取的,其中包括:
如何以有用和有效的方式创建新内容。
摩根士丹利和晨星公司都对内容创建者进行了培训,特别是如何以最佳方式创建和标记内容,以及哪些类型的内容适合使用生成式人工智能。
"一切都在飞速发展"
我们采访过的一位高管说:"我可以告诉你今天的情况。但在这个领域,一切都发展得非常快"。每天都有新的 LLM 和调整其内容的新方法发布,也有来自供应商的具有特定内容或任务重点的新产品发布。任何致力于将自身知识嵌入生成式人工智能系统的公司,都应准备好在未来几年内经常修改处理这一问题的方法。
虽然在构建和使用基于公司自身知识内容训练的生成式人工智能系统过程中会遇到许多具有挑战性的问题,但我们相信,公司的整体利益值得我们为应对这些挑战而付出努力。让任何员工以及客户都能轻松获取公司内外的重要知识,从而提高生产力和创新能力,这一长远愿景具有强大的吸引力,生成式人工智能似乎是最终实现这一目标的技术。
关于原作者:
Thomas H. Davenport是巴布森学院(Babson College)IT 和管理学总裁特聘教授、麻省理工学院数字商业中心研究员、国际分析研究所(International Institute for Analytics)联合创始人以及德勤分析公司(Deloitte Analytics)高级顾问。他是新书《工作中的大数据<Big Data at Work>》和畅销书《分析竞争<Competing on Analytics>》的作者。
Maryam Alavi是佐治亚理工学院谢勒商学院 IT 管理学 Elizabeth D. & Thomas M. Holder讲座教授。
上一篇:阿里云的开源算盘
下一篇:致未来,山西晚报创刊24周年