时间: 2024-05-28 10:39:02 | 作者: 印刷耗材
北京时间周二凌晨1点,自年初“文生视频模型”Sora后许久未给市场带来惊喜的OpenAI举行春季发布会。公司首席技术官米拉·穆拉蒂(Mira Murati)向外界展现了多项与ChatGPT有关的更新。
整体来看,活动大致上可以分为两大部分:推出新旗舰模型“GPT-4o”,以及在ChatGPT中免费提供更多功能。
其中最重磅的是新的模型GPT-4o。根据OpenAI的官网解释,o代表“全知”,是朝着更自然的人类与计算机交互迈出的一步。
OpenAI在活动中发布了新旗舰模型“GPT-4o”,“可以实时对音频、视觉和文本进行推理。”据介绍,新模型使ChatGPT可处理50种不同的语言,同时提高了速度和质量。
据了解,GPT-4o是迈向更自然人机交互的一步,它可接受文本、音频和图像三者组合作为输入,并生成文本、音频和图像的任意组合输出,“与现有模型相比,GPT-4o在图像和音频理解方面尤其出色。”
在GPT-4o之前,用户使用语音模式与ChatGPT对线秒,音频在输入时还会由于解决方法丢失大量信息,让GPT-4无法直接观察音调、说话的人和背景噪音,也无法输出笑声、歌唱声和表达情感。
与之相比,GPT-4o可以在232毫秒内对音频输入做出一定的反应,与人类在对话中的反应时间相近。在录播视频中,两位高管做出了演示:机器人能够从急促的喘气声中理解“紧张”的含义,并且指导他进行深呼吸,还能够准确的通过用户要求变换语调。
性能方面,根据传统基准测试,GPT-4o在文本、推理和编码等方面实现了与GPT-4 Turbo级别相当的性能,同时在多语言、音频和视觉功能方面的表现分数也创下了新高。
就从这次演示来看,这一交互层面的升级才证明了多模态确实是AI的Game Changer。
更强的是手机版的GPT-4o能够最终靠语音能力理解你的话语,状态(累不累,喘气粗不粗)。
还能通过视觉识别你所处的环境和你正在做的事情,并对它作出反应。帮你解数学题,没问题,解完还能陪你聊聊人生。
这就是OpenAI想做到的全知:一个陌生人看到你时所能感受到的几乎一切,它全部能接收到。因此它也有了真正能和你做与你私人相关的,符合场景的操作。
OpenAI称,“我们跨文本、视觉和音频端到端地训练了一个新模型,这在某种程度上预示着所有输入和输出都由同一神经网络处理。由于GPT-4o是我们第一个结合所有这些模式的模型,因此我们仍就只是浅尝辄止地探索该模型的功能及其局限性。”
除了在直播中重点强调的功能,在OpenAI的技术文档中,我们正真看到在GPT4-o的能力列表中,还包含3D能力、图像诗能力、转换卡通照片等能力。
正如Sam Altamn所说,正是在这个背景下,属于每个人的云端情人HER到来了。
第二件事情就是宣布,ChatGPT的免费用户也能用上最新发布的GPT-4o模型(更新前只可以使用GPT-3.5),来进行数据分析、图像分析、互联网搜索、访问应用商店等操作。这也代表着GPT应用商店的开发者,将面对海量的新增用户。
当然,付费用户将会获得更高的消息限额(OpenAI说至少是5倍)。当免费用户用完消息数量后,ChatGPT将自动切换到 GPT-3.5。另外,OpenAI将在未来1个月左右向Plus用户推出基于GPT-4o改进的语音体验,目前GPT-4o的API并不包含语音功能。
另外,OpenAI将在未来1个月左右向Plus用户推出基于GPT-4o改进的语音体验,目前GPT-4o的API并不包含语音功能。苹果电脑用户将迎来一款为macOS设计的ChatGPT桌面应用,用户都能够通过快捷键“拍摄”桌面并向ChatGP提问,OpenAI表示,Windows版本将在今年晚些时候推出。
未能参加直播活动的OpenAI首席执行官山姆·奥特曼(Sam Altman)在社交平台X上发帖表示:“我们的新模型:GPT-4o是我们迄今为止最优秀的模型。它既智能又快速,并且是原生多模态模型。”