为训练AI,OpenAI等科技巨头花式淘数据
央广网
2024-04-08 22:53:53

原标题:为训练AI,OpenAI等科技巨头花式淘数据

【环球时报特约记者 甄翔】《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频,形成对话文本数据,供其最新的AI学习。这是一条违反法律的“捷径”。

报道称,早在2021年年底,OpenAI就面临培训AI模型的数据源几乎陷入枯竭的境地。该公司铤而走险,在明知YouTube母公司谷歌禁止用工具提取该平台内容的情况下,转录了100多万条视频并生成GPT-4模型的学习材料,OpenAI创始人之一布罗克曼也参与其中。讽刺的是,谷歌得知OpenAI的行为却并未制止,因为其也在提取YouTube平台内容训练AI模型。

《纽约时报》援引消息人士的话表示,这可能侵犯视频版权,因为它们属于创作者。尽管如此,越来越多的科技公司冒着面临诉讼的风险也要“走捷径”。报道称,根据内部会议记录,Meta公司商定从互联网上收集受版权保护的数据,因为与出版商、艺术家、音乐家和新闻行业就版权内容谈判太花时间。

报道称,领先的AI模型需要从涵盖多达3万亿字的数字文本池中学习。有分析称,预计互联网上现有可供培训AI模型的数据最快到2026年就会耗尽。

《纽约时报》援引内部人士的消息称,谷歌法律部门已经要求起草新的政策,扩大该公司对消费者数据的用途。Meta的情况更严峻,其旗下脸书平台不是人们撰写文章的地方,可用数据不多。报道称,在一次讨论中,Meta高管谈到在非洲聘请承包商来汇总各种小说和非小说的文本摘要。Meta全球合作与内容副总裁格鲁丁表示:“唯一阻碍我们达到ChatGPT水平的因素就是数据量。”

相关内容

热门资讯

2026零基础B站AI总结使用... 做HR的朋友注意了,2026年哪怕是零基础,也能搞定面试、OKR面谈记录整理,连B站上的AI类学习内...
力鸿二号可重复使用运载器征集载... 4月3日,中科宇航发布消息,力鸿二号可重复使用运载器启动载荷征集。此次征集的载荷包括科学实验方向、太...
海拔千米处,三峡夔门被“克隆” 奉节县海拔1200米的高山上 藏着一道几乎与三峡夔门 一模一样的山门 让我们跟随记者的报道 探访“克...
揭秘数字孪生钢厂:物联网可视化... 在钢铁行业这个传统印象中“高能耗、高污染、重体力”的领域,一场静悄悄的“数字革命”正在上演。想象一下...
AI竞技场上演「死间计」:GP... 新智元报道 编辑:倾倾 【新智元导读】别测算力了,今晚咱们只测「心眼子」!欢迎来到2026年首届A...