今天分享的是:2025大模型原理技术与应用
报告共计:66页
该文档围绕大模型原理、技术发展与应用展开全面阐述。语言作为人类交流与知识传承的核心工具,自然语言处理成为人工智能的关键领域,历经五次范式变迁后,DeepSeek-R1引发第六次以“推理”为核心的变革。大模型发展中,GPT奠定预训练基础,GPT-3实现少样本学习但缺乏推理能力,ChatGPT通过无监督学习、指令精调与强化学习(RLHF)提升实用性,而DeepSeek系列持续迭代,R1凭借仅用强化学习(GRPO框架)习得推理能力,在AIME等基准测试中接近OpenAI o1模型,且训练推理速度更快、成本更低,同时坚持开源。模型架构优化方面,DeepSeek采用MoE、MLA、MTP等算法优化及FP8混合精度训练、DualPipe等Infra优化,大幅降低训练成本。应用层面,Prompt工程提供清晰指令、参考资料等六大原则与多种技术,RAG与SFT助力领域适配,智能体、具身智能等拓展应用场景。哈工大研发了活字对话大模型、珠算代码大模型、本草医学大模型等,在多领域落地,如精神健康计算系统、人机融合医疗会诊平台、软硬一体机器脑系统等。未来,自然语言处理正从语言处理转向基于语言的智能,大模型将向多模态、具身交互、自组织等方向发展,持续迈向AGI,而创新能力培育、架构优化等仍是关键探索方向。
以下为报告节选内容