加快建设人工智能高质量数据集
创始人
2025-02-12 21:24:18
0

作者:王晓明(中国科学院科技战略咨询研究院研究员)

当前,人工智能处在快速发展的关键时期,正在重塑经济社会发展模式。2024年中央经济工作会议指出,开展“人工智能+”行动,培育未来产业。数据作为人工智能发展的三大核心要素之一,是人工智能模型训练的基础要素,也是人工智能模型应用的核心资源,加快建设人工智能高质量数据集,对于推动“人工智能+”场景落地具有重要意义。

高质量数据集建设存在的问题

高质量数据供给是推动新一代人工智能加快发展的关键要素。当前,面向新一代人工智能的数据供给仍有不足,数据处理专用技术有待进一步突破,数据产业和数据生态有待丰富,高质量数据集的整体规划和支持政策还有待完善。

首先,通用领域、垂直领域以及具身智能领域的高质量数据供给仍有不足。一方面,中文公开数据在质量和数量方面落后于英文数据。另一方面,我国公共数据开放利用程度有待提高,各地开放标准不统一,专门面向人工智能发展的高质量行业数据集仍较匮乏。具身智能领域真实交互数据采集不足,主要原因在于智能机器人与环境的交互数据获取困难且成本高昂,同时,企业采集数据缺乏统一的参照标准。

其次,高质量数据的合成、处理和利用技术亟待提升。利用深度学习和强化学习生成高精确度、多样化合成数据的技术在成熟度和应用范围上急需突破。随着社会自动化和智能化程度的不断提高,对数据处理的要求也不断提升,因此急需针对结构化、半结构化和非结构化数据的处理技术进行迭代优化,进一步提高数据处理效率。

再次,数据主体和商业模式发展尚不成熟。我国缺乏类似美国Databricks和Snowflake“数据+人工智能”模式的高质量数据汇聚和治理主体,具备大规模数据汇聚管理分析能力的公司数量不足。医疗、法律、保险、金融、工业、科研等多个领域的公共数据授权运营主体目前仍在培育中,数据集构建和运营利用的商业模式发展还不够成熟。

最后,高质量数据集的专项规划和支持政策有待完善。我国已出台一系列数据发展相关指引政策,但是面向新一代人工智能模型训练和场景应用的高质量数据集专项规划和支持政策尚未出台,其建设、运营、流通、利用等方面举措有待进一步细化。在数据采集方面,各领域数据缺乏适用的标准规范;在数据使用方面,缺少面向大模型和具身智能模型训练的数据共享和流通促进机制,一定程度上限制了模型能力的快速提升。

多措并举建设高质量数据集

针对当前存在的资源、技术、模式、制度等方面问题,结合新一代人工智能发展的需要,建议发挥政府和市场的协同作用,多措并举推进高质量数据集建设。

一是加快公共数据开放和企业数据流通,建设面向新一代人工智能的高质量数据集。建议形成部门、行业、地区共同参与的协同机制,围绕高质量数据集建设,扩大数据供给范围和规模,完善公共及行业数据标准,加速可信数据空间建设。面向医疗、教育、科研、法律、工业、农业、物流、金融、能源、交通等重点领域建设大数据中心及大模型行业应用创新(工程)中心,打破信息孤岛,构建完备数据生态,构建高质量数据集,提升垂直领域人工智能模型能力。着眼自动驾驶、具身智能等未来产业需求,开放相关公共数据,制定行业数据标准,探索企业间数据流通机制,鼓励企业和研究机构创建高质量行业数据集。

二是围绕建设行业高质量数据集关键技术问题加大攻关力度。面向数据合成和处理,加快开发数据合成、数据治理的关键共性技术;面向数据流通汇聚,大力推广隐私计算、区块链等技术;面向“数据+人工智能”应用模式,着力开发数据管理技术,探索新型模型结构和训练架构。鼓励面向人工智能的数据产品、数据服务企业牵头承担国家重大项目,开展应用基础研究和关键核心技术攻关。推动产学研合作和创新联合体建设,打造数据技术、产品和服务深度融合的新型合作模式。面向重点场景,打造数据技术“测试场”,提供真实数据环境、模拟应用场景,建设中试基地,吸引企业、高校和科研机构参与数据技术的创新和验证,加速新技术推广和应用。

三是引导企业和商业模式创新,构建人工智能数据产业生态。大力培育人工智能数据资源、技术、服务、应用、安全、基础设施等多领域企业,重点建设面向人工智能行业的数据产业创新平台。鼓励企业基于“数据+人工智能”探索多领域商业模式,支持企业与各方合作,打造基于高质量数据集的产业创新链和生态系统。鼓励企业探索大模型和具身智能应用场景,驱动数据产业发展。支持模型应用、模型开发、数据服务、数据产品等相关企业组建创新联合体,开发高质量数据集,发展“数据即服务”“知识即服务”“模型即服务”等新业态。

四是加大人工智能高质量数据集建设政策支持力度。面向新一代人工智能技术开发和应用发展需求,完善数据资源构建体系,培育数据产业,支持数据技术发展,系统推进高质量数据集建设,强化行业应用。统筹中央和地方财政资金、产业引导基金和各类政策性投资,加大对高质量数据集建设的投入。鼓励金融机构创新产品和服务,增加对数据相关企业的融资支持。引导社会资本有序参与人工智能高质量数据集的开发利用。

来源:科技日报

相关内容

热门资讯

游戏介绍!牛牛房卡专卖店,正规... cJ7y最近,外网就将苹果公司为用户准备的惊喜曝光了,那就是iPhone 14Pro的全新配色,官方...
游戏介绍!牛牛房卡房间怎么开,... vY3PW根据此次曝光的信息显示,iPhone 15、iPhone 15 Pro 和 iPhone ...
三星S25的野心,藏在AI里 百模大战的火势刚缓,AI硬件的浪潮便席卷而来。 手机,作为全民使用的终端产品,正日益成为AI硬件落地...
科学家发现宇宙最大结构“奇普” 科技日报讯 (记者刘霞)据物理学家组织网2月6日报道,德国马克斯·普朗克研究所科学家发现了宇宙中迄今...
游戏测评!牛牛房卡哪里买便宜,... B6tFrc7因此在高通骁龙7+ Gen2的加持下,该机的核心性能将会非常的极致。并且该机配备了41...
评测!牛牛房卡批发价格,牛牛房... xy在交互体验上的表现,iPhone14ProMax依然是处于领先的水准。虽然华为P60Pro的微四...
在央视春晚跳秧歌的人形机器人不... 在蛇年央视春晚的舞台上,杭州宇树科技的人形机器人在舞台上跳起了秧歌,丢起了手绢,让全国观众大为赞叹。...
贵州国塑3亿元“炼出”44项专... 日前,记者在贵州国塑科技管业有限责任公司的贵州省管材绿色制造工程研究中心,见证了一场精彩的大口径塑料...
游戏测评!金花房卡平台购买联系... 74cE2iPhone16Pro这次的主要卖点,集中在屏幕上的体验和后置相机模组的设计,这两个设计可...
游戏推荐金花房卡哪里有的卖,金... 81StN8eyiPhone 15系列的电池容量会更大吗? 随着 iPhone 13系列的推出, i...
游戏牛牛卖房卡多少钱一张,斗牛... s71b对于 iPhone 15系列手机来说,它在外观上进行了小幅调整,外观设计依旧是刘海屏,但在屏...
多家银行完成DeepSeek本... 来源:第一财经 【#多家银行完成DeepSeek本地化部署#】蛇年春节前后,DeepSeek公司推出...
A股:DeepSeek概念 最... 25年初,DeepSeek突然爆火。 DeepSeek以独特的AI算法蒸馏技术崭露头角,大幅降低训练...
游戏!正规房卡链接在哪购买,牛... iTCR3JiPhone16Pro这次的主要卖点,集中在屏幕上的体验和后置相机模组的设计,这两个设计...
评测!金花房卡哪里有卖,金花房... ojwKI从核心配置来看,这款OPPO Reno9手机搭载了高通骁龙778G处理器,采用了更先进的6...
游戏介绍!牛牛房卡专卖店,斗牛... vSWl对于 iPhone 15系列手机来说,它在外观上进行了小幅调整,外观设计依旧是刘海屏,但在屏...
游戏推荐牛牛房卡哪家便宜,斗牛... vJzlbp强得有些离谱!上述曝光的这款realme GT3,更惊艳的极边微孔直屏的全面屏设计带来了...
原创 1... 每一代新机都在提升配置,向着高配置、高性能发展,毕竟现在的手游和应用对性能的要求越来越高。24GB+...
游戏知识!牛牛房卡批发价格,牛... JnpaP2不仅影像能力再度突破,还都适配了鸿蒙OS3.1,甚至原本单向的北斗卫星消息如今也升级为了...
游戏牛牛房卡批发价格,斗牛ap... wqUmCiPhone 15系列的定价策略从去年开始就一直备受争议,特别是今年 iPhone 15 ...