OpenAI颠覆世界：GPT4o完全免费，实时语音视频交互震撼全场

机器之心报道机器之心编辑部ChatGPT问世才17个月，OpenAI就拿出了科幻电影里的超级AI，而且完全免费，人人可用。太震撼了！当各家科技公司还在追赶大模型

ChatGPT问世仅17个月，OpenAI就拿出了科幻电影里的超级AI，而且完全免费，所有人都可以使用。

太震撼了！

当各家科技公司还在追赶大机型的多模态能力，将摘要文字、P图等功能放入手机时，遥遥领先的OpenAI却直接发起了大招，发布了一款产品，甚至自己的CEO 漫威奥特曼：就像电影里一样。

5月14日凌晨，OpenAI在首场“春季新品发布会”上推出了新一代旗舰一代型号GPT-4o及桌面App，并展示了一系列新能力。这一次，技术颠覆了产品形态，OpenAI用行动给全球科技公司上了一课。

今天的主持人是OpenAI 首席技术官Mira Murati。她表示，今天主要讲三件事：

首先，未来OpenAI的产品将首先免费，让更多人可以使用。其次，OpenAI 发布了该程序的桌面版本和更新的UI，使用起来更简单、更自然。第三，继GPT-4之后，又出现了新版本的大型模型，命名为GPT-4o。 GPT-4o 的特别之处在于，它以极其自然的交互方式为所有人（包括免费用户）带来了GPT-4 级别的智能。此次ChatGPT更新后，大模型可以接收文本、音频和图像的任意组合作为输入，并实时生成文本、音频和图像的任意组合输出。 —— 这是未来的交互方式。

最近，ChatGPT无需注册即可使用。今天，添加了一个桌面程序。 OpenAI 的目标是让人们随时随地无任何意义地使用它，并将ChatGPT 集成到您的工作流程中。这种人工智能现在就是生产力。

GPT-4o是一种面向未来人机交互范式的新型大规模模型。它能够理解三种模式：文本、语音和图像。它反应很快，有情感，而且很人性化。

现场，OpenAI工程师拿出iPhone展示了新机型的几大能力。最重要的是实时语音对话。陈马克说：“这是我第一次参加直播会议，所以有点紧张。” ChatGPT 说，你为什么不深呼吸呢？

好吧，我深吸一口气。

ChatGPT立即回复：“你不能这么做，你呼吸太多了。”

如果您以前使用过Siri 等语音助手，您会注意到这里有明显的区别。首先，你可以随时打断AI并继续对话，而无需等待它结束。其次，你不需要等待，模型的反应速度非常快，比人类的反应还要快。第三，模型能够充分理解人类的情感，并且能够自行表达各种情感。

接下来是视觉能力。另一位工程师将方程式写在纸上，ChatGPT 没有直接给出答案，而是要求它一步步解释如何做。它在教人们做题方面似乎有很大的潜力。

ChatGPT 说，每当你在数学上遇到困难时，我都会在你身边。

接下来尝试一下GPT-4o 的编码能力。这里有一些代码。在计算机上打开桌面版ChatGPT 并使用语音与其交互。要求它解释一下代码的用途以及某个函数的作用。 ChatGPT 会流利地回答问题。

输出代码的结果是一张温度图，让ChatGPT能够用一句话回答关于这张图的所有问题。

它可以回答最热的月份是哪一个月以及Y轴的单位是摄氏度还是华氏度。

OpenAI还实时回应了部分X/Twitter网友提出的问题。比如实时语音翻译，手机可以作为翻译机，来回翻译西班牙语和英语。

还有人问，ChatGPT能识别你的表情吗？

视频加载中.

看来GPT-4o已经具备了实时视频理解的能力。

接下来，让我们仔细看看OpenAI今天发布的核弹。

通用型GPT-4o

OpenAI颠覆世界：GPT4o完全免费，实时语音视频交互震撼全场

第一个引入的是GPT-4o，其中o 代表Omnimodel。

OpenAI首次将所有模态集成在一个模型中，大大提高了大型模型的实用性。

OpenAI CTO Muri Murati 表示，GPT-4o 提供“GPT-4 级别”的智能，但在GPT-4 的基础上改进了文本、视觉和音频能力，并将在未来几周内“迭代”实施。在公司产品中推出。

“GPT-4o 的基本原理涵盖了语音、文本和视觉，”Muri Murati 说道。 “我们知道这些模型变得越来越复杂，但我们希望交互体验变得更加自然和简单，这样你就根本不必关注用户界面。专注于与GPT 的合作。”

GPT-4o 在英文文本和代码上的性能与GPT-4 Turbo 相当，但显着提高了在非英文文本上的性能，同时API 更快且便宜50%。与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色。

它可以在短短232 毫秒内响应音频输入，平均响应时间为320 毫秒，与人类相似。在GPT-4o 发布之前，体验过ChatGPT 语音对话功能的用户的平均ChatGPT 延迟为2.8 秒（GPT-3.5）和5.4 秒（GPT-4）。

该语音响应模型是三个独立模型的管道：一个简单模型将音频转录为文本，GPT-3.5 或GPT-4 接收文本并输出文本，第三个简单模型将该文本转换回音频。但OpenAI 发现这种做法意味着GPT-4 丢失了大量信息。例如，该模型无法直接观察音高、多个扬声器或背景噪音，也无法输出笑声、唱歌或情感表达。

在GPT-4o 上，OpenAI 跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。

“从技术角度来看，OpenAI 已经找到了一种将音频直接映射到音频作为第一级模态并将视频实时传输到变压器的方法。这些需要对标记化和架构进行一些新的研究，但总的来说，它是一个数据和系统优化问题（大多数事情都是这样）”，NVIDIA 科学家Jim Fan 评论道。

GPT-4o 实现了跨文本、音频和视频的实时推理，这是迈向更自然的人机交互（甚至人机机交互）的重要一步。

视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==mid=2650917888idx=1sn=7d7cf9a41642541b5df64d0c8fb5b76achksm=84e4087eb3938168382fadd785ad8eb00 602 cda1863fbe811697c037508985dafb8558331058token=196273776lang=zh_CN#rd

OpenAI 总裁Greg Brockman 也在网上“完成了工作”，不仅让两台GPT-4o 实时对话，还让他们即兴创作了一首歌。虽然旋律有点“感人”，但歌词涵盖了房间的装修风格、人物的服装特点、期间发生的插曲等。

此外，GPT-4o 在理解和生成图像方面比任何现有模型都要好得多，使许多以前不可能完成的任务变得“简单”。

例如，您可以要求它帮助在杯垫上打印OpenAI 徽标：

经过这段时间的技术攻关，OpenAI应该已经完美解决了ChatGPT生成字体的问题。

同时，GPT-4o还具有生成3D视觉内容的能力，可以从6个生成的图像进行3D重建：

这是一首GPT-4o 可以手写风格格式化的诗：

还可以处理更复杂的布局样式：

使用GPT-4o，你只需要输入几段文字，你就会得到一组连续的漫画故事板：

以下的玩法应该会让很多设计师感到惊讶：

这是一张由两张生活照片演变而来的风格化海报：

还有一些小众功能，例如“文本到艺术字”：

OpenAI颠覆世界：GPT4o完全免费，实时语音视频交互震撼全场

GPT-4o性能评估结果

OpenAI技术团队成员表示

在难度较大的提示集——上尤其是在编码方面：GPT-4o相比OpenAI之前的最佳模型有特别显着的性能提升。

具体来说，在多个基准测试中，GPT-4o 在文本、推理和编码智能方面实现了GPT-4 Turbo 级别的性能，同时在多语言、音频和视觉功能方面达到了新高。

推理改进：GPT-4o 在5-shot MMLU（常识问题）上取得了87.2% 的新高分。（注：Llama3 400b 仍在训练中）

音频ASR 性能：与Whisper-v3 相比，GPT-4o 显着提高了所有语言的语音识别性能，特别是对于资源匮乏的语言。

GPT-4o 在语音翻译方面实现了新的最先进的性能，并且在MLS 基准测试中优于Whisper-v3。

M3Exam 基准是多语言和视觉评估基准，由来自多个国家的标准化测试多项选择题组成，并包含图表。 GPT-4o 在所有语言基准测试中都比GPT-4 更强。

未来，模型功能的改进将实现更自然、实时的语音对话，以及通过实时视频与ChatGPT 对话的能力。例如，用户可以向ChatGPT 展示一场现场体育比赛并要求其解释规则。

ChatGPT 用户将免费获得更多高级功能

每周有超过1 亿人使用ChatGPT，OpenAI 表示GPT-4o 的文本和图像功能今天开始在ChatGPT 中免费推出，Plus 用户可用的消息限制高达5 倍。

现在打开ChatGPT，我们发现GPT-4o已经可用。

ChatGPT 免费用户现在在使用GPT-4o 时可以访问以下功能：体验GPT-4 级别的智能；用户可以从模型和网络获得响应。

另外，免费用户还有以下选项——

分析数据并创建图表：

谈谈你拍的照片：

上传文件以帮助总结、写作或分析：

发现并使用GPT 和GPT App Store：

并使用记忆功能来创造更有帮助的体验。

但是，免费用户可以使用GPT-4o 发送的消息数量根据使用情况和需求而受到限制。当达到限制时，ChatGPT 将自动切换到GPT-3.5，以便用户可以继续对话。

此外，OpenAI 将在未来几周内在ChatGPT Plus 中推出新版本的语音模式GPT-4o alpha，并通过API 向一小群值得信赖的合作伙伴提供更多GPT-4o 的新音频和视频功能。

当然，通过多个模型测试和迭代，GPT-4o在所有模式下都存在一定的局限性。尽管存在这些缺陷，OpenAI 表示正在努力改进GPT-4o。

可以想象，GPT-4o音频模式的开放肯定会带来各种新的风险。在安全问题上，GPT-4o通过过滤训练数据、训练后细化模型行为等技术，将安全性内置于跨模态设计中。 OpenAI 还创建了一个新的安全系统来保护语音输出。

OpenAI颠覆世界：GPT4o完全免费，实时语音视频交互震撼全场

新的桌面应用程序简化了用户工作流程

对于免费和付费用户，OpenAI 还推出了适用于macOS 的新ChatGPT 桌面应用程序。通过简单的键盘快捷键（Option + Space），用户可以立即询问ChatGPT 问题，用户还可以截取屏幕截图并直接在应用程序内进行讨论。

用户现在还可以直接从计算机上与ChatGPT 进行语音对话，未来还会推出GPT-4o 的音频和视频功能，只需单击桌面应用程序右下角的耳机图标即可开始语音对话。

OpenAI 从今天开始向Plus 用户推出macOS 应用程序，并将在未来几周内更广泛地使用它。此外，OpenAI 将于今年晚些时候推出Windows 版本。

奥特曼：你开源，我们免费

发布后，OpenAI CEO Sam Altman 时隔很长一段时间首次发表博文，介绍了推进GPT-4o 工作的流程：

在今天的发布会上，我想强调两件事。

首先，我们使命的一个关键部分是免费（或以折扣价）向人们提供强大的人工智能工具。我非常自豪地宣布，我们在ChatGPT 中免费提供世界上最好的模型，没有广告或类似的东西。

当我们创立OpenAI 时，我们最初的愿景是：我们要创造人工智能，并利用它为世界创造各种利益。现在情况发生了变化，看起来我们将创造人工智能，然后其他人将使用它来创造各种令人惊奇的事物，我们都将从中受益。

当然，我们是一家企业，会发明很多收费的东西，这将帮助我们向数十亿人提供免费、出色的人工智能服务（希望如此）。

其次，新的语音和视频模式是我用过的最好的计算界面。感觉就像电影中的人工智能，但我仍然有点惊讶它是真实的。事实证明，达到人类水平的响应时间和表达能力是一个巨大的飞跃。

最初的ChatGPT 暗示了语言界面的可能性，但这个新东西（版本GPT-4o）感觉根本不同—— 它快速、智能、有趣、自然且有帮助。

与计算机交互对我来说从来都不是自然而然的，这是事实。当我们添加（可选）个性化、访问个人信息、让人工智能代表人们采取行动等等的能力时，我真的可以看到一个令人兴奋的未来，我们将能够用计算机做比以往更多的事情。

最后，非常感谢团队为实现这一目标而付出的努力！

值得一提的是，奥特曼上周接受采访时表示，虽然全民基本收入很难实现，但我们可以实现“免费的全民基本计算”。未来，每个人都可以免费使用GPT的算力，可以使用、转售或捐赠。

“我们的想法是，随着AI 变得更加先进并嵌入到我们生活的各个方面，拥有像GPT-7 这样的大型语言模型单元可能比金钱更有价值，而且你也拥有了部分生产力，”Altman 解释道。

GPT-4o的发布或许是OpenAI在这方面努力的开始。

是的，这只是开始。

最后但并非最不重要的一点是“猜猜5月13日公告”的视频。今天在OpenAI 博客上展示的视频几乎完全变成了明天谷歌I/O 大会的热身视频。这无疑是对谷歌的一种讨好回应。不知道谷歌看完今天的OpenAI发布后是否感受到了巨大的压力？

参考内容：

https://openai.com/index/hello-gpt-4o/

https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/

用户评论

箜篌引

哇，GPT4o免费了，这简直是业界的一大突破！我一直想试试这个强大的AI，现在有机会了。

有18位网友表示赞同！

秒淘你心窝

听说GPT4o可以实时语音视频交互，这太震撼了！我感觉未来的人工智能交互会因为这个改变很多。

有19位网友表示赞同！

余温散尽ぺ

我一直觉得AI是个好东西，但是完全免费的话，会不会让更多的人滥用？希望OpenAI能做好监管。

有11位网友表示赞同！

羁绊你

免费使用GPT4o，这对我来说是个好消息，但我担心它的性能会不会因为免费而有所下降。

有19位网友表示赞同！

万象皆为过客

哇，完全免费的GPT4o，这简直是AI界的福利啊！我已经迫不及待想要体验一下了。

有5位网友表示赞同！

落花忆梦

实时语音视频交互听起来很酷，但我更关心的是，它的隐私保护措施怎么样。

有8位网友表示赞同！

太难

我一直认为AI技术应该更加亲民，现在GPT4o免费了，这让我对OpenAI有了新的认识。

有13位网友表示赞同！

凉月流沐@

免费使用GPT4o，这对初创公司来说是个大福音，但我们也要担心它对传统产业的冲击。

有14位网友表示赞同！

熏染

GPT4o免费，意味着更多的人可以接触到先进的人工智能技术，这对教育领域来说是个好消息。

有20位网友表示赞同！

千城暮雪

我一直担心AI技术会被滥用，现在GPT4o免费了，我更担心的是监管措施跟不跟得上。

有10位网友表示赞同！

古巷青灯

听说GPT4o的交互功能很强大，我迫不及待想要试试看，不知道它能不能理解我的情感。

有13位网友表示赞同！

此生一诺

免费GPT4o，这是不是意味着未来我们生活中将无处不在的AI助手呢？想想都激动。

有7位网友表示赞同！

醉红颜

虽然GPT4o免费了，但我还是觉得它应该有一些高级功能需要付费解锁，这样才能保持其先进性。

有5位网友表示赞同！

颓废人士

实时语音视频交互听起来很酷，但我担心这会让人更加沉迷于虚拟世界，忽视现实生活。

有20位网友表示赞同！

别悲哀

免费使用GPT4o，这让我对OpenAI的愿景更加期待，希望他们能引领人工智能走向更美好的未来。

有15位网友表示赞同！

疲倦了

GPT4o免费，我担心这会导致市场上出现更多低质量的AI产品，我们需要有更多的辨别能力。

有15位网友表示赞同！

汐颜兮梦ヘ

听说GPT4o的免费，是因为它要和Google等巨头竞争，这会不会导致AI领域的恶性竞争呢？

有7位网友表示赞同！

莫飞霜

我一直在关注GPT4o的发展，现在它完全免费了，我真的想看看它能不能颠覆我的工作方式。

有16位网友表示赞同！

日久见人心

完全免费的GPT4o，这让我对人工智能的未来充满了期待，希望它能给我们带来更多的惊喜。

有14位网友表示赞同！

{{userData.name}}已认证

OpenAI颠覆世界：GPT4o完全免费，实时语音视频交互震撼全场

用户评论

即时通讯平台添加语音、视频功能

孙女为83岁奶奶安装智能语音视频，给她安全感