当地时间9月25日,OpenAI宣布ChatGPT即将在两周内对plus用户与企业用户开放一系列新功能,包括图像读取与理解(即图生文),以及语音对话能力。据悉,语音功能将在iOS和Android平台推出,图像功能将登陆所有平台。
其中,最受外界关注的是ChatGPT的图像理解能力。据介绍,用户可以向ChatGPT展示一张或多张图片,ChatGPT会尝试识别用户想要询问的内容,并给出相应的回答。例如排查为何烧烤炉无法启动,检查冰箱里的菜能做什么美食,或分析复杂图表得出数据。若想让ChatGPT关注图片中的特定部分,还可以使用APP中的绘图工具高亮标注。
在OpenAI给出的示例视频中可以看到,当用户向ChatGPT发送一张自行车照片、询问如何调低车垫时,ChatGPT不仅会自发观察自行车型号、辨认零部件、给出详细步骤,还会看说明书,并分辨用户现有工具能否完成这项工作。
至于本次更新的另一语音识别与生成功能,类似于手机上的语音助手,用户只需按下一个按钮,说出自己的问题,ChatGPT 就会将其转换为文本,然后生成答案,再将答案转换为语音,播放给用户。OpenAI表示,用户可以用这一功能为孩子讲述睡前故事,还可以在吵架时作为帮手。
机构表示,多模态大模型是未来发展趋势。随着AI感知、交互与生成能力快速发展,应用场景与生态也有望进一步丰富,有利于AI在千行百业快速落地。与此同时,语音与图像数据大小显著高于文本,多模态大模型的训练推理算力需求将大幅攀升。
AI是20年一遇的产业变革,此前AI相关概念股已经经历了长达3个月左右的深度调整(调整幅度达30-50%),而近期在多重利好刺激下,AI算力及应用方向均迎来大涨,宣告板块强势归来。
我们“优秀交易员”节目一直关注AI方向的投资机会,并制作了多篇专题报告为大家梳理了包括算力、数据要素,以及应用端包括传媒、游戏、教育等多个方向的投资逻辑。我们将这些报告(共13篇)进行了集合,制作了《人工智能浪潮下投资机会系列专题》,感兴趣的朋友,欢迎免费获取。