在2月19日召开的2024海淀区经济社会高质量发展大会上,中关村科学城相关负责人透露,海淀将加快建设、汇聚万P(1P约等于每秒1000万亿次的计算速度)级高性能算力资源,在京内及环京地区建设大规模算力中心,并通过人工智能数据开放共享监管沙箱试点、开放应用场景等方式,建设中国人工智能产业高地与示范区。
“作为全国创新策源地,海淀要从算力、数据、算法、框架、场景应用、伦理等多方面出发,打造人工智能产业发展的示范区,并辐射全国。”中关村科学城管委会专职副主任何建吾说。
数据、算力、算法是人工智能发展的三大要素。据19日公布的最新数据,海淀区围绕人工智能基础软硬件设施、关键核心技术、行业应用等环节进行全产业链布局,目前已集聚人工智能企业近千家,占全市的三分之二、全国的六分之一,其中大模型企业、机构超80家,且数量持续增长。与人工智能企业快速发展相伴的,是不断增长的算力需求,全国乃至全球甚至一度出现“算力荒”问题。
为了给人工智能企业提供充足的算力供给,海淀区将推动智能算力建设,加快建设、汇聚万P级高性能算力资源。何建吾介绍,除了组织相关企业在京建设算力中心外,海淀还将通过跨域统筹为区内人工智能企业提供更多普惠、开放的公共算力服务,在京内及环京地区建设大规模算力中心,持续推动国产芯片集群评测、适配验证、迭代升级。例如在天津武清,北京人工智能算力的武清节点正在建设中,未来还将探索在内蒙古等环京区域探索算力中心的统筹布局。
作为信息时代的宝贵资源,数据被称为人工智能的“燃料”。业内人士透露,即便以相同的算法和算力为基石,用不同的数据去“投喂”AI模型,也会对模型的效果产生巨大影响。互联网中的公开数据大家都可以通过各种渠道去获取,然而,这些公开渠道获取的数据“燃料”中包含大量杂质,需要花费较高的成本对数据中的“杂质”进行辨别、清洗。而一些有版权限制的高质量数据,例如书籍、杂志、期刊等相关数据能否被AI大模型调用,目前尚未有成型的法律监管约束或支持。针对人工智能行业发展对高质量数据的渴求,中关村科学城将积极探索人工智能数据开放共享监管沙箱试点,加快互联网数据、高质量版权数据、公共数据的汇集共享,营造包容审慎的创新环境。
此外,海淀将围绕大模型发展需求,提供多种开源、共性工具,支撑智算集群稳定运行及模型高效训练,并将在城市管理、新型工业化等方面率先向人工智能企业开放应用场景,加速让人工智能技术赋能经济社会发展的方方面面。
来源:北京日报客户端 记者 孙奇茹
流程编辑:u027