2023 年 5 月,微软 CEO 纳德拉抛出一个惊人数字,未来全球的开发者数量将会达到 10 亿。
那时候 Meta 的 Llama 已经开源 4 个月,但一些国内的开发者发现,从小以英文语料喂养起来的 Llama,对中文世界并不友好。
这未来的 "10 亿 " 开发者里会有多少中文开发者,这个问题难以预测,但至少已经有 755 万人了。
755 万人,这是 2021 年在 GitHub 上注册的中国程序员数量,现在的程序员一定会是未来大模型的第一批开发者。
有很多人已经是了。
在浙江省电力设计院工作的陶佳,尝试用一个开源的大模型来做基于私有知识库的检索问答类应用。他所面对的场景很特殊,经常需要从几十万甚至上百万字的文档中查找内容。陶佳的专业是电力系统控制优化,里面有一些结合了传统数学方法和 AI 方法的领域,因此对 AI 有基本认识,也从去年底就一直在关注着这波大模型的浪潮。
他试了几款,试下来通义千问是最好的。" 准确,而且‘手感’很好,没有那些稀奇古怪的 bug",他说。
要做的事也很简单。有一些基本的软硬件基础后,在家里买个服务器、扔三四块显卡上去,下载通义千问、让它在服务器上运行,再搞个 FRP 反向代理,从阿里云上买最便宜的 30 多块钱一个多月的服务就行,这样就能通过外网访问家里的服务器,在单位里也能用通义千问做实验。
陶佳搭建的服务器
当一个开源生态开始成型,这样的开发者也逐渐变多。
开始闭环的开源生态
陶佳对大模型最深处的期待来自一个终极问题:人类能否成为上帝?
美国的未来学家库兹韦尔在 2015 年曾经提出过这种可能性。库兹韦尔的想象里,人类到 2030 年将能够成为半机器人。通过在脑中植入纳米机器人,人类将能够直接接入互联网,智力将变得更高,并且将拥有幽默、音乐和爱等美好的天赋和能力。人类将成为像上帝一样的完美存在。
那一年 OpenAI 刚刚建立,但 8 年前库兹韦尔的设想放到现在仍然有相似的地方,只不过现在看起来好像在一个机器人(Agent)中加入意识和人性,这条路好像更近点——也就是 AGI。
但哪怕技术是爆炸、是跃迁式的,现在离 AGI 还很远。如果说 AGI 会再造一个新的世界,那当下人类对大模型的期待,仍然是在现实基础上改造世界。而这首先需要建立在我们知道这个世界是什么样子的,哪里需要被改造。世界真实的声音需要被听到,建立一条通道非常重要。
大模型时代的开源,意义就在这里。来自不同现实场景,又具有代码能力的人们需要一个广场,来让技术主动和场景对齐,然后具有代表性的产品才能够出现。
这个广场要供大家交流用,还要有充沛且价格合适的算力资源,同时也需要足够丰富的可调用模型来做选择。开发者要的是这样一个闭环的开源生态,通义千问的优势开始显露出来。
算力是关于大模型所有想象力的基础。通义千问背后的阿里云拥有国内最强的智能算力储备作为基础设施支持。其智算集群可达最大十万卡 GPU 规模,这意味着在阿里云上可以承载多个万亿参数大模型同时在线训练,为大规模 AI 集群提供无拥塞通讯的自研 RDMA 网络架构和低成本高可靠的高性能存储 CPFS。
而在 4 月,阿里云在推出通义千问的同时,也宣布了史上最大幅度的一次降价,对比上一代主售产品最高可下降 40% 的同时,还开放了计算、存储、数据库、机器学习等核心产品免费试用的机会。这为大量新涌入的 AI 开发者提供了尝试和试错的机会。
在阿里云的算力支撑下,像陶佳一样的开发者开始带着 " 野心 " 涌入魔搭社区。
去年 11 月的云栖大会上,阿里云与 CCF 开源发展委员会共同推出 AI 模型社区 " 魔搭 "ModelScope,在社区上线同时贡献了 300 多个 AI 模型,全面开源开放,其中超过 1/3 为中文模型。上线一年后,魔搭社区上的 AI 开发者数量已经超过 280 万人,AI 模型超过 2300+,下载超过 1 亿 +。
随着大模型的热潮转向 Agent,魔搭社区在今年 9 月推出了 AI Agent 开发框架 ModelScope-Agent,并且搭建了一个 " 打样产品 "ModeScopeGPT,它可以调用社区里众多 AI 模型的 API,然后自主完成人类布置的任务。这个 ModeScopeGPT 的调用量已经超过了 40 万次。
除了通义千问之外,Llama 2、智谱 AI、百川智能甚至最新推出大模型的零一万物等近百款开源模型目前都已经进入社区。并且 " 目前中国有一半大模型企业跑在阿里云上 ",阿里云 CTO 周靖人在 2023 年云栖大会上这样说的时候,魔搭已经是此刻国内规模最大、用户最活跃的 AI 模型开源地。
正在扩展的参数量
12 月 1 日,阿里云举行通义千问发布会,开源了通义千问 720 亿参数模型 Qwen-72B。在参数量上这是目前国内主流视线中最大的开源大模型,而在能力上,Qwen-72B 的性能已经在测试中超越开源标杆 Llama 2-70B。
Qwen-72B 的训练基础是 3T tokens 的高品质数据,它采用了更多的参数和训练数据,实现了全面的性能提升。这个模型延续了通义千问预训练模型的卓越表现,在 10 个权威测评中取得开源模型中的最佳成绩,并在某些评测中超越了非公开的 GPT-3.5 和 GPT-4。
在英语任务方面,Qwen-72B 在 MMLU 基准测试中获得开源模型中的最高分。在中文任务中,它在 CEVAL、CMMLU、Gaokao 等评测中领先,甚至超过了 GPT-4。在数学推理领域,Qwen-72B 在 GSM8K、MATH 评测中远超其他开源模型。同时,在代码理解任务上,通过 HumanEval 和 MBPP 评测,Qwen-72B 展示了显著的进步,其代码能力实现了质的飞跃。
从 8 月初开始,Qwen-7B 和 Qwen-7B-Chat 两款开源模型在魔搭社区上线开始,通义千问自身的模型开源开始提上日程。8 月 25 日,以 Qwen-7B 为基座语言模型研发,支持图文输入,具备多模态信息理解能力大规模视觉语言模型 Qwen-VL 开源。
Qwen-VL 开源的一个月之后,阿里云在 9 月 25 日开源了通义千问百亿级的参数模型 Qwen-14B 及其对话模型 Qwen-14B-Chat。这款模型在性能上开始第一次看向 Llama-70B,加上前几款开源的模型,一个多月时间内在开源社区的下载量突破 100 万,在性能和可用性的平衡上,70 亿和 140 亿参数的尺寸也是对开发者最友好的。
但当这个大模型开源生态开始走深,开发者对模型的性能上限有了更高的要求,也就需要更大参数的模型。Qwen-72B 开始吸引到一些初创团队的目光。
" 我对 72B 的模型抱有非常大的期待,好奇 72B 在我们领域中的能力极限值。"
颜鑫是华东理工大学 X-D Lab(心动实验室)的成员,X-D Lab 实验室之前的研究方向包括社会计算与社会智能、群体智能与隐私保护、公共卫生与舆情监测、工业智能与智能系统等方面,大模型出现之后,开始聚焦 AI 情感计算领域。
基于开源的通义千问基座模型,颜鑫和其他团队成员陆续开发了心理健康大模型 MindChat(漫谈)、医疗健康大模型 Sunsimiao(孙思邈)、教育 / 考试大模型 GradChat(锦鲤)三款垂直领域大模型,现在已有超过 20 万人次使用过这三款大模型,累计提供了超过 100 万次的问答服务。
考虑到计算资源的限制以及一些客户对于私有化部署的需求,颜鑫表示目前团队在提供问答服务时 7B 或 14B 尺寸的大模型是更合适的选择,但在更开放的学术探索上——比如如何利用联邦学习算法处理数据—— Qwen-72B 有着前者不具备的性能优势。
而开源模型参数量的向上探索,未来也有机会推动 ModelScope-Agent 这样关于如何接近 AGI 的畅想更接近现实。
此前在阿里从事大数据业务近 7 年的秦续业,现在身份是未来速度 Xorbits 联合创始人 &CEO。Xorbits 打造了企业级的分布式推理框架 Xinference。通过 Xinference,开源模型可以降落在个人用户和开发者的个人电脑上,企业用户能够在计算集群上轻松部署并管理模型,享受私有化部署带来的安全、定制化以及低成本。
秦续业表示,如果外接知识库做问答应用,通过大模型召回一些数据,放到上下文中进行总结,最后给出有用的回答,那么小尺寸(10B 以下)的模型是够用的。如果需要具备一定的逻辑推理能力的模型,20-30B 的中等尺寸模型是比较好的选择。
" 但在 Agent 或者需要强大推理能力的场景中,70B+ 的大模型会更有优势。"
AI Agent 是秦续业远处的期待,但他同样也是个现实主义者。眼下把模型用起来是更重要的事情,所以 Xorbits 已经攻克的焦点,是让通义千问跑在一台 Mac 电脑上。
秦续业觉得这一点能击中很多人。因为很多开发者都是用 Mac 电脑,他们直接在本地拉起 Qwen 系列模型,可以极大提升开发效率。
Qwen 系列的全尺寸完善不止一个 72B 的大参数模型。与 Qwen-72B 同步,阿里云此次开源了通义千问 18 亿参数模型 Qwen-1.8B 和通义千问音频大模型 Qwen-Audio,至此,通义千问开源光谱已经了覆盖从 18 亿、70 亿到 140 亿、720 亿参数的 4 款大语言模型,以及视觉理解(Qwen-VL)、音频理解两款多模态大模型。
大模型的开源生态,这是 AI 时代最终能够汹涌而来的一味药引。周靖人对通义千问的定位是 "AI 时代最开放的大模型 ",现在打点好一切,静待开发者入场了。
来源:硅星人