每经记者:王帆 每经编辑:张海妮
今年7月,腾讯云正式发布AI原生向量数据库,最高支持10亿级向量检索规模。四个月后,在11月15日的腾讯云向量数据库技术及产业峰会上,腾讯云宣布将向量数据库检索规模从十亿升级至千亿级别。
向量数据库使用向量化计算,能够高速地处理大规模的复杂数据,解决传统关系型数据库中的痛点,是大模型训练过程中数据存储的更优选择。在接受包括《每日经济新闻》记者在内的媒体记者采访时,腾讯云数据库副总经理罗云表示:“向量在未来是一种通用的人工智能数据格式,能够屏蔽掉因底层数据格式的差异导致无法很好使用非结构化数据的问题。”
也就是说,向量数据库通过统一企业数据与大模型交互的“语言”,让AI变得更加通用和高效。这已经成为AI浪潮下的行业共识。
图片来源:每经记者 孔泽思 摄(资料图)
向量数据规模从十亿升级到千亿
11月15日,在腾讯云向量数据库技术及产业峰会上,腾讯云全面升级向量数据库多项核心性能,最高支持千亿级向量规模和500万QPS(每秒查询率)峰值能力,同时和信通院一起联合50多家企业共同发布了国内首个向量数据库标准,推进向量数据库及大模型相关产业走向大规模应用。
腾讯方面透露,自7月份正式发布以来,腾讯云向量数据库经过多次迭代升级,在企业级能力上持续突破:在优化版的IVF索引支持下,从最初支持的十亿向量规模到现在的千亿规模;不断优化索引的压缩算法,让相同的内存可以存储5-10倍的数据;集成Embedding(嵌入)功能,让用户无须关注向量生成过程,就可以实现快速的数据处理。
腾讯云数据库副总经理罗云在会上表示:“从编程语言到自然语言,大模型重塑了算力调度方式。而AGI(通用人工智能)时代,也需要智能化的数据调度范式。AGI时代的数据平台,向量数据库是数据的中枢,腾讯云向量数据库希望成为这个数据中枢,通过企业级和智能化的能力助力各行各业一起走向AGI。”
在会后接受采访时,罗云进一步分析道:“向量在未来是一种通用的人工智能数据格式,它连接关键数据库、非关键数据库、对象存储、文件存储各式各样结构的数据,把这些数据集中化放在一个数据管理平台上,屏蔽掉因底层数据格式的差异导致无法很好使用非结构化数据的问题。”他提到,大模型目前更多是解决计算问题,而向量数据库解决的是存储问题,两者之间相互支持配合,是一种“你中有我,我中有你”的关系。
如今,向量数据库通过统一数据“语言”能够加速大模型高效落地,已经成为了行业共识。今年全球有多家向量数据库创业公司获得新融资。阿里云今年7月也发布了内置向量引擎功能的最新版云原生数仓AnalyticDB,用户仅需30分钟即可构建专属生成式AI应用。
成本还不是推广的主要“卡点”
据罗云介绍,目前腾讯云向量数据库已经累计服务了腾讯内部40多个业务,日请求量达1600亿次,服务了包括博世、销售易、搜狐、好未来、链家等在内的超过1000家外部客户。
例如,在SaaS领域,帮助企业客户快速构建私域知识库、智能客服系统;在电商行业,使用向量数据库来提升推荐、搜索、广告业务的推荐效果;在出行行业,使用向量数据库来加速自动驾驶模型训练。此外,在教育行业以及文创等行业也有广泛应用。
《每日经济新闻》记者注意到,向量数据库拥有腾讯云产品一贯的推广逻辑——在内部丰富的产品矩阵中打磨跑通,再对外输出经验。罗云认为,腾讯自己把产品的应用吃透,再放到外部去,客户的满意度自然就会起来。“在To B这种赛道,一个客户的试错成本是很高的。如果客户由于我们的服务没有支撑好他的业务,那这种业界的口碑传播其实对我们整个云品牌的创伤是挺大的。”他说道。
那么,为何最早使用腾讯云向量数据库的是SaaS领域以及电商出行、教育等行业?罗云认为,产品落地的“冷启动”对象,首先主要来自腾讯云既有的客户群体,其次是取决于客户意愿,对新兴业务是否主动拥抱。
罗云称,“我和很多的企业主都在聊,大家很饥渴也很焦虑,生怕在AI时代掉队,但他们其实也不太明白怎么样去用好向量数据库,怎么样用好大模型,怎么样把自己的知识变成向量数据存储起来。尽管向量数据库是很重计算、重内存的事情,整个行业都在探讨解决方案,但目前来看,成本还不是当前推广向量数据库的主要‘卡点’,客户更多的还是考虑怎样把自己的行业know-how(技术诀窍)和AI技术打通”。
每日经济新闻