【热议】人类数据耗尽怎么办? 外滩大会热议数据技术新趋势
创始人
2024-09-06 22:02:07
0

9月5日,在2024 Inclusion·外滩大会上,由蚂蚁集团、上海交通大学、复旦大学联合主办的“从DATA for AI到AI for DATA”见解论坛召开,产学研代表深入探讨了在AI时代数据价值的转变,中国工程院院士、清华大学计算机科学与技术系教授郑纬民,昆仑万维 & 天工智能首席科学家、新加坡工程院院士颜水成参会,分享了数据技术的变化趋势及与AI技术的融合。

(图说:9月5日,2024 Inclusion·外滩大会“从DATA for AI到AI for DATA”见解论坛召开。)

一、大模型拉动数据与AI全面对齐

数据一定程度上决定了智能的上限,这使得大模型的技术越要突破,数据技术越要与其“对齐”,大模型对数据利用的“贪婪程度”,也影响了数据的存储、生产、加工、流通、消费各个环节的技术走向。

在存储环节,中国工程院院士、清华大学计算机科学与技术系教授郑纬民表示,大模型生命周期的每一环节都与存储系统有关,在数据获取阶段,需要处理海量多模态小文件,在数据预处理时,则要频繁、随机小样本读取,训练时,检查点文件读写对存储系统提出新的需求,推理时,加载模型参数以及保存中间结果尤为关键,这些挑战也催生了新的技术方案诞生。

大数据时代,数据的价值还没来得及充分挖掘,AI时代一到,数据却面临着消耗过快的挑战,这使得合成数据技术成了热门领域。据研究机构Epoch AI在6月发布的报告显示,从2026年起,人类产生的新数据量将比模型学习的新数据量要少,预估到2028年大语言模型将耗尽人类数据。

昆仑万维 & 天工智能首席科学家、新加坡工程院院士颜水成认为,模型结构还会继续升级,大模型目前推理能力不够等众多的遗留问题,最好的解决途径可能是用合成数据,但做法不同,不应是根据原来的数据合成新的数据,而是通过大模型之间相互的对话、讨论、评价,最后产生出更好、更高质量的数据,这些数据将会大大去提升大模型的效能。

基础数据库也在加强与AI的融合。国产分布式数据库OceanBase CTO杨传辉介绍了如何通过一套系统同时支持SQL+AI,支持向量数据库,并通过AI技术优化数据库开发和管理工具。

蚂蚁技术研究院院长陈文光提出,向AI“对齐”需要从底层系统角度出发,包括硬件的结构和对应的编程语言、编译系统等。他介绍了在人工智能、科学计算与大数据处理(FABS:Fused AI, Big Data and Science)融合的计算模式思考。

二、探索AI时代的数据战略与实践

(图说:蚂蚁集团平台技术事业群副总裁骆骥展望新一代智能数据体系,他认为数据正在向价值中心转变。)

从大数据时代到AI时代,数据体系正在从成本和效率中心向价值中心转变,蚂蚁集团平台技术事业群副总裁骆骥认为,在AI时代,数据资产本身的规模、多样性、品质等是决定智能化效果的关键因素。数据更加直接地影响到智能化应用的效果,这就意味着,从数据资产的生产、加工与服务、消费与应用等各个环节都需要围绕数据的价值化这一全新的视角去构建相应的体系与技术能力。

骆骥分享了基于蚂蚁集团业务场景下,AI时代的蚂蚁智能数据体系探索与实践。

他表示,在过去的两年里,蚂蚁集团一直在构建一个围绕融合数据湖、能提供各种数据驱动的智能化应用服务与能力的数据体系,其底层基于全模态存储与计算引擎,上层能支持丰富的智能化业务应用场景。

在底层,蚂蚁构建了行列混存,以及面向新搜索、新交互的向量数据库能力,并且为大模型训练打造了极致的全模态缓存加速的新型存储技术产品。

在核心的融合数据湖里,蚂蚁致力于将结构化数据、半结构化数据与非结构化数据充分融合。除了传统的数据管理与治理、端云/跨云的数据融合和隐私保护之外,还重点关注统一元数据、支持三线一致和Single Source of Truth,以及特别针对非结构化数据的安全可信与品质保障能力等几大关键要素。

在上层的数据应用中,包含了高价值数据的生产(包括数据引入、数据感知、数据标注、数据合成)、全模态的数据研发和面向机器与智能体的新特征服务,以及围绕数据的分析与科学实验工程体系等。

“数据技术领域也正在飞奔进入一个全新的历史阶段。”骆骥说。

相关内容

热门资讯

WhatsApp怎么实时翻译 在当今社交网络的时代,WhatsApp已经成为了人们日常生活中必不可少的通讯工具之一。随着全球化的发...
迎战“摩羯” 襄阳移动通信专家... 9月6日,今年第11号超强台风“摩羯”先后在海南文昌市、广东徐闻县登陆,多地通信设施受损严重。灾情就...
原创 美... 最近,光刻机的话题再次成为网络热议的焦点。 美国和荷兰这两大科技强国可没闲着,一个批评中国光刻机技术...
谁在购买2万元的华为手机和苹果... 选在同一天发布新机的华为与苹果,又选在同一天发售新机。 9月20日,苹果iPhone 16系列正式开...
读懂中国——欧洲青年体验中国式... 机器人被誉为“制造业皇冠顶端的明珠”,截至2024年7月,中国持有的机器人相关有效专利超过19万项,...
“湖北造”快舟一号甲一箭发射四... 湖北日报讯 (记者许旷、通讯员崔冬娜、唐诗、实习生贾雯钰)9月20日17时43分,快舟一号甲固体运载...
浙江高速全力防范台风“普拉桑”... 中新网杭州9月19日电 今年第14号台风“普拉桑”逼近,为确保台风期间高速安全有序运行,保障民众生命...
2万元的华为手机和苹果顶配,谁... 9月20日,苹果iPhone 16系列正式开售。澎湃新闻记者抵达上海南京东路苹果零售店时,首批预约到...
英特尔中国回应“高通洽购英特尔... IT之家 9 月 21 日消息,芯片巨头高通被曝正在洽购芯片代工厂商英特尔。澎湃新闻今天就此事求证英...
捷报迎秋 | 擎云科技将为常州... 城市轨道交通行业步入智慧化新时代,轨道交通、人工智能、5G等新基建能力正推动中国经济发展。 近日,擎...
智能家电(家居)产业:“智慧”... 想象一下,每天当你踏入智能化的家居殿堂——— 智能灯光,随着环境的变化与人的心情起伏,巧妙地调整着光...
新款iPhone开售,部分机型... 9月20日,备受关注的四款iPhone 16系列机型正式发售。 据澎湃新闻,记者抵达上海南京东路苹果...
中国经济样本观察·企业样本篇|... 从“光杆司令”CEO,到公司规模突破1000人;从能否给扫地机器人“安上水桶”,到让扫拖机器人“长了...
折叠屏上新!国产手机坚定技术创... 9月20日,华为公司三折叠屏手机开售。从vivo推出XFold3系列折叠屏产品到荣耀MagicV3全...
原创 原... 原来钥匙丢了用易拉罐也能开锁,不管什么样的锁,轻轻一碰就打开 如果不慎丢失钥匙,不必惊慌失措,因为易...
“淘宝带货第一人”张大奕关店:... 图为如涵控股在纳斯达克敲钟,第一排白衣女子为张大奕 出品|搜狐科技 作者|汉雨棣 编辑|杨锦 9月2...
第三届琶洲算法大赛举行 9月20日,第三届琶洲算法大赛颁奖暨生态赋能大会在广州琶洲举行。 本届大赛以“算法领航,琶洲奋进”为...
原创 太... 当我们抬头仰望星空时,或许很多人都会想到这样一个疑惑:太阳系为何如此精妙,难道真的是被设计出来的吗?...
智源研究院发中文互联网语料库3... 新京报贝壳财经讯(记者白金蕾)9月20日,在2024北京文化论坛“文化潮流:新兴业态与技术融合”平行...
低空经济领域新产品、新技术、新... 9月20日,在2024成都国际低空装备及服务博览会上,观众在体验无人机模拟驾驶。 9月19日至21日...