2023-09-28 07:40:45 作者:姚立伟
近日,DeepMind的研究人员对大型语言模型(LLM)的压缩能力进行了评估,发现这些模型具有惊人的压缩能力。除了常规文字资料外,研究人员还发现这些模型可以用于压缩图像和音频。相关研究已经在学术期刊上发表。 研究人员在研究中使用了一个名为“Chinchilla 70B”的模型,尽管这个模型主要使用文字训练,但研究人员发现该模型还能够用于压缩ImageNet图片,将文件压缩至原始大小的43.3%。甚至该模型还可将LibriSpeech语音样本压缩至原始大小的16.4%。 研究表明,模型的“预测”能力和“压缩”能力之间存在等效性,因此研究人员可以使用任何压缩算法建立一个更强大的条件生成模型。 在当前语言模型成果丰富的环境下,任何人都可以取得语言模型并将其用于压缩,而不需要额外的训练成本。此外,即使使用主要的文字进行训练的基础模型,由于其上下文学习能力,也能够成为通用压缩器。 研究还发现,过大或过小的模型都不是最佳选择。如果模型过大,可能会对压缩能力产生负面影响,因为模型参数本身也需要在输出中被考虑。而过小的模型虽然能够有效压缩资料,但庞大的参数本身也会成为负担。此外,自然语言处理中常用的分词方法(将一串文字切割成更小、更容易处理的步骤),在压缩层面上并不会提高压缩效率,反而会增加模型的体积。