人工智能 (AI) 的高速发展代表各种大型语言模型 (LLM) 的新版本不断推陈出新。要充分发挥AI的潜力并掌握因此而来的机会,需要实现LLM从云到端的广泛部署,其中也带动了对运算和能源需求的大幅增长。整个生态系正携手寻找应对该挑战的解决方案,不断推出新的、且更高效率的开源LLM,以便大规模实现各种AI推论工作负载,加快为用户带来全新、快速的AI体验。
为此,Arm与Meta展开紧密合作,在Arm CPU上激活新的Llama 3.2 LLM,集成开源创新与Arm运算平台的优势,以应对AI带来的挑战。受益于Arm的持续投资及与各新型LLM的合作, 在Arm CPU上运行AI的优势在生态系中脱颖而出,使Arm成为AI推论开发人员的首选平台。
小型LLM(如Llama 3.2 1B和3B)能够支持基于文本的基础生成式AI工作负载,对于大规模AI推论的实现相当重要。通过Arm CPU优化核心在Arm技术驱动的移动设备上运行新的Llama 3.2 3B LLM,可让提示词(Prompt)处理速度提高五倍,词元(token)生成速度提高三倍,在生成阶段实现每秒19.92个词元。这将直接减少了在设备上处理AI工作负载的延迟,大大提升了用户的整体体验。此外,当边缘端能处理的AI工作负载越多,往返云计算传输数据所节省的电量就越多,进而节省了能源和成本。
除了在边缘端运行小型模型,更大的模型(如Llama 3.2 11B和90B)也能在云计算运行。11B和90B的模型非常适合云计算基于CPU的推论工作负载,可生成文本和图像,如同在Arm Neoverse V2上的测试结果显示。在基于Arm架构的AWS Graviton4上运行11B的图像和文本模型,可在生成阶段实现每秒29.3个词元的表现,远远超出人类大约每秒阅读五个词元的速度。
能公开获取各个新的LLM(如Llama 3.2)相当关键。开源创新正以极为快速的速度发展,在之前的版本中,开源社交媒体在不到24小时的时间内便能在Arm上部署并运行新的LLM。
Arm将通过Arm Kleidi进一步支持软件社交媒体,让整个AI技术堆栈能够充分发挥该经过优化的CPU性能。Kleidi可在任何AI框架上释放Arm Cortex和Neoverse CPU的AI功能和性能,无需应用程序开发人员进行额外的集成工作。
通过最近的Kleidi与PyTorch集成以及正在推进的与ExecuTorch集成,Arm正在为基于Arm CPU的开发人员提供从云到端的无缝AI性能。受益于Kleidi与PyTorch的集成,在基于Arm架构的AWS Graviton处理器上运行Llama 3 LLM的词元首次回应时间加快了2.5倍。
同时,在移动设备上,通过KleidiAI函数库的协助,使用llama.cpp函数库在新的Arm Cortex-X925 CPU上运行Llama 3的词元首次回应时间与参考实例相比加快了190%。
Arm表示,Arm与Meta的合作成为产业合作的新标杆,它汇聚了Arm运算平台的灵活性、普及性和AI功能,以及Meta等产业领导者的技术专长,共同释放AI被广泛应用的新机会。无论是利用设备端LLM满足用户的个性化需求,如根据用户所在的位置、日程和偏好来执行任务,还是通过企业级应用来优化工作效率,让用户更专注于创造价值的任务,Arm技术的集成都为未来奠定了基础。设备将不再只是命令和控制工具,更能在提升用户整体体验方面发挥积极的作用。
在Arm CPU上运行Meta最新Llama 3.2版本,其AI性能展现显著的提升。这类开放式合作是实现无处不在的AI创新、促进AI可持续发展的最佳途径。通过各项新的LLM、开源社交媒体和Arm的运算平台,Arm正在构建AI的未来,到2025年,将有1,000多亿台基于Arm架构的设备支持AI。