ChatGPT重磅更新!可以通过图片和语音命令交互
澎湃新闻
2023-09-26 09:28:15
0

原标题:ChatGPT重磅更新!可以通过图片和语音命令交互

·OpenAI在其官网宣布,目前正在推出ChatGPT的新版本,除了通过常见的文本框交互外,现在它正在学会以新的方式理解人类的问题,比如通过大声说话或者上传一张图片。

·随着越来越多的人使用语音控制和图像搜索,并且ChatGPT越来越接近成为一个真正多模式、有用的虚拟助手,维持住安全护栏会变得越来越困难。

OpenAI在其官网宣布,ChatGPT现在可以“看”、“听”和“说”了。

自诞生以来,ChatGPT的大部分更新主要在于,这个基于AI的机器人可以做什么、可以回答哪些问题、可以访问哪些信息,以及如何改进其基础模型等方面。这一次,OpenAI正在调整使用ChatGPT的方式。

北京时间9月25日晚,OpenAI在其官网宣布,目前正在推出ChatGPT的新版本,除了通过常见的文本框交互外,现在它正在学会以新的方式理解人类的问题,比如通过大声说话或者上传图片。

具体而言,在语音方面:第一,允许用户进行语音对话,提供更直观的交互方式;第二,支持在iOS和Android移动应用上使用;第三,提供5种不同的语音选择;第四,通过新型文本转语音模型和语音识别系统实现。

这应该感觉就像与苹果的Siri交谈一样,只是OpenAI希望,通过改进基础技术使其说出更好的答案。目前,大多数虚拟助手,如亚马逊的Alexa,都在以大语言模型(LLM)为基础进行改进。

据OpenAI介绍,新的语音功能由一个新的文本到语音模型提供支持,该模型能够从文本和几秒钟的语音样本生成“类似人类的音频”。OpenAI似乎还认为该模型的潜力不止于此,其正在与流媒体音乐服务平台Spotify合作,将播客翻译成其他语言,同时保持播音者的声音。合成语音有许多有趣的用途,而OpenAI可能会成为该行业的重要组成部分。

然而,只需几秒钟的音频就能构建出功能强大的合成音色,这也为各种问题性用例敞开了大门。“这些功能还带来了新的风险,比如恶意行为者冒充公众人物或实施欺诈的可能性”,OpenAI在其宣布新功能的博文中写道。OpenAI表示,出于这个原因,该模型不会广泛被使用,而更多受到特定用例和合作伙伴的限制。

在图像方面,第一,允许用户上传图像与ChatGPT进行交互;第二,支持多张图像;第三,提供移动应用上的绘图工具;第四,使用多模态GPT模型(Generative Pre-Trained Transformer,生成式预训练Transformer模型)理解图像;第五,在接下来的两周内首先面向Plus(付费订阅用户)和企业用户推出;第六,语音和图像功能的推出采取渐进策略,以确保安全性;第七,要注意模型局限性,避免高风险场景下对其依赖。

图像搜索有点类似于Google Lens的功能,用户拍摄自己感兴趣的任何东西的照片,ChatGPT去尝试了解用户在询问什么,并做出相应的回应。用户还可以使用应用程序的绘图工具帮助明晰自己的诉求,或配合图像进行说话或写入问题。

这是ChatGPT希望实现的一个互动特性:与其进行一次搜索得到错误答案,然后再重新进行一次搜索,不如在进行的过程中提示AI机器人完善答案。

不过,显然图像搜索也有其潜在问题。比如,如果用户询问的是关于一个人的情况,ChatGPT该如何反应?OpenAI表示,他们故意限制了ChatGPT“分析和直接陈述关于人的能力”,这既是为了准确性,也是为了隐私原因。这意味着对于AI的一个极具科幻色彩的想象——看着某人然后问AI“那是谁”,并不会很快实现。

在ChatGPT首次推出将近一年后,OpenAI似乎仍在寻找,如何为其AI机器人增加更多功能和能力而不会产生新的问题和缺点。OpenAI也试图通过有意限制其新模型的功能,来维持“更进一步”和“降低风险”这两者之间的平衡。但这种方法可能不会永远奏效。随着越来越多的人使用语音控制和图像搜索,并且ChatGPT越来越接近成为一个真正多模式、有用的虚拟助手,维持住这个护栏会变得越来越困难。

相关内容

热门资讯

喜马拉雅在深圳成立互联网公司 ... 天眼查App显示,近日,深圳喜洲互联网有限公司成立,法定代表人为傅海波,注册资本1000万人民币,经...
原创 残... 虽然已经发展超过10年,但是新能源车对很多人来说,还是属于新生事物。 所以总会经常有人问,现在的电车...
2024世界制造业大会即将启幕 2024世界制造业大会(朱丽 摄) 央广网合肥9月19日消息(记者鲍玉婵)9月20日,备受瞩目的20...
苹果iPhone 16正式开售... 苹果iPhone 16系列正式开售。 9月20日早上8点,苹果新一代旗舰手机iPhone 16系列在...
Mate 70最受期待!华为三... 快科技9月20日消息,博主数码闲聊站爆料,华为今年最重磅的三款新机分别是nova 13系列、Mate...
欧洲真空高铁技术首次试车成功 ... 2024-09-18 21:19:33作者:姚立伟 荷兰的“欧洲超级环中心”首次进行了真空管道高速...
黑神话悟空又上热搜了!总收入已... 2024-09-20 10:44:32作者:姚立伟 据国外数据分析公司VG Insights最新数...
厚植科创沃土 漫科学数字融合科... 9月19日,漫科学数字融合科普平台在渝上线。据悉,漫科学以科普为核心,科创为引擎,包含知识百科、数字...
史上首次4天内双台风登陆上海!... 14号台风“普拉桑”紧接“贝碧嘉”再度登陆上海,四天之内两个秋台风接连来袭,这对于上海来说,是史无前...
东西问|贾立:珠峰地区首次,中... 珠峰站9月18日电 题:珠峰地区首次,中国科学家为何开展这项试验? ——专访中国科学院空天信息创新研...
iPhone 16系列深度测评... 是的没错,差友们期待已久的新 iPhone 测评来了啦! 今年我们也是在第一时间拿到了 iPhone...
江华规划展示馆:同赏中秋 筑梦... 今日永州讯(江华特约记者 朱婷 通讯员 周思思)9月15日,江华规划展示馆以“同赏中秋,筑梦天宫”为...
原创 思... 继今年8月宣布全球裁员7%之后,网络设备巨头思科近日已经开始了在中国区的裁员。 据凤凰财经报道,多位...
对话三天不换衣干部:我道歉不应... 转自:九派新闻 上午9时许,台风“贝碧嘉”刚走,新的台风“普拉桑”接踵而至,关于台风的研判数据不断更...
大疆Osmo Action 5... 大疆自去年夏天推出Osmo Action 4运动相机以来,凭借其出色的稳定性和优质的影像表现在极限运...
AI 文章生成器:神奇魔术棒背... AI文章生成器被誉为神奇的魔术棒,轻轻一挥即可产生文章,其背后隐藏着精密巧妙的原理。本文将为您揭示该...
登上热搜第一!微信朋友圈支持发... 9月19日晚间,“微信派”公众号发文称,微信朋友圈现已支持发布实况照片。这也意味着,微信IOS端8....
gnss位移监测站系统——对地... 来源:万象环境监测设备 gnss位移监测站系统WX-WY1采集的数据可以通过4G、以太网等多种方式实...
航空大讲堂 专题话低空 □本报记者杨之甜 9月13日上午10时,第十六届安阳航空运动文化旅游节开幕式刚结束,安阳市文体中心文...
腾讯大战字节跳动?去年狂揽60... 【ITBEAR】9月20日消息,互联网行业风云再起,腾讯与字节跳动的竞争日趋激烈。近日,两家公司的财...