OpenAI深夜王炸！GPT-4o发布，这次真的成精了？

什么值得买 · 发表于 2024-5-14 17:24:22

点击上方名片关注我们

Chat GPT 又双叒叕更新了！‍‍‍‍

今天深夜1点，OpenAI春季发布会抢在谷歌开发者大会迅速召开！

不过，这次发布会和我们预料的似乎有所不同，不是网络上呼声很高的「搜索引擎」，也不是“大版本跃迁”的「GPT5」，而是…GPT-4o。

在不到半小时的线上发布会上，OpenAI的首席技术官米拉·穆拉蒂宣布GPT-4的一系列升级。

总的来说，GPT-4o 是面向未来人机交互范式的全新大模型，具有文本、语音、图像三种模态的理解力，反应极快还带有感情，也很通人性。

听起来确实干货满满，也似乎包含着整个GPT团队的「雄心壮志」。一起来看看都更新了啥吧！

真的更像人了！‍‍‍‍‍‍

发布会刚开始，大家都很奇怪，本来说的「天花乱坠」，让大家「期待十足」，怎么着也得弄个GPT5吧？这4o是几个意思？

没想到，GPT-4o的o翻译过来，居然是“Omni”，按照字面意思来理解的话，就是“全知全能”。

好家伙，直接明确了OpenAI对于这一次更新的期盼值有多高了。

发布会刚开始，米拉·穆拉蒂就上台阐述了自己的“野心”，并说明：OpenAI的目标是进一步减小人们使用AI的障碍，让所有人都能在工作、学习、创造中用上AI工具。

而为了达成这个目的，OpenAI一共做了三件事：公平，公平，还是挺忙的公平… 发布更强大的模型GPT-4o，更新用户界面提高使用体验，然后一口气免费开放给用户。

什么？免费？？居然免费？？

当然，虽然免费了，却依然有“付费模式”可选，而一旦你选择了付费模式，你就会「立享尊贵的5倍信息流限制」。也就是说，免费用户能和GPT-4o说话的次数x5，就是尊贵的“会员权限”了。（没理解错吧！）

更加快了！

如果你用了4o的，第一感觉就是快！太快了！

此前GPT-3.5语音对话的平均延迟为2.8秒、GPT-4为5.4秒，音频在输入时还会由于处理方式丢失大量信息，无法识别笑声、歌唱声和情感表达等。

而GPT-4o可以在232毫秒内对音频输入做出反应，甚至还能随意打断，与人类在对话中的反应时间相近，彻底颠覆了以往的“语音助手”。

啥意思呢？它要比你所有的大模型都要快，就是说你吵不过AI了！

更像人了！

快只是“开胃小菜”，GPT-4o还改进了GPT在文本、视觉以及音频方面的能力。并且它能以平均320毫秒，做出响应。

听起来挺“硬”，但实际上，就是GPT-4o的所有表述更像是“人类”了，并且能够通过你的语音，分析你的语气进行“察言观色”，并且实时推理，给你一个绝对正确且满足你情绪的答案。

而且，在和GPT-4o对话的时候，你可以无视环境，无视语序，随时插嘴，粗暴打断。

在这种情况下，模型也能够进行实时响应，对你在任何时间所说的任何话做出一个明确合理的回答。

比如，在研发负责人Mark Chen向模型说明自己在台上很紧张时，GPT-4o给出的回复是：你在台上做演示吗，你很棒哦！深呼吸一下，你可是个专家！

而当Mark Chen真的猛烈呼吸了几下之后，GPT-4o也准确的抓住了这点，回复到：放松啊Mark，你可不是个吸尘器。

神了啊，神了，我哥们儿都没这么能察言观色！

GPT-4o还能够“用自己的情绪讲故事”。简单来说，就是你可以指定它的语气，让它变得更加情绪化，更有戏剧性，甚至还能要求它模仿机器人和唱歌的声音的声音！

最后，当现场在纸上写下“我爱GPT”后，GPT-4o在摄像头捕捉到之后，居然发出了一声“尖叫”，然后大声回答：你你你居然我爱我，你太可爱了！

…算是充分满足了老夫的少女心。这一波，情绪价值拉满！

更全能了！

GPT-4o的功能远不止于此。在发布会上，OpenAI团队讲述到：为了真正实现「让AGI惠及全人类」，我们的GPT-4o有50种语言的版本，并改进了推理的质量和速度。

这也就意味着，GPT-4o基本覆盖了全球的语言和地区！

而且，实时翻译也不在话下，现场也演示了手机可以拿来当翻译机去来回翻译西班牙语和英语。试想一波，出国旅行带着 GPT 就像随身带着一个会所有语言的翻译一样，简直不要太爽。

GPT-4o还可以打开摄像头，直接看屏幕，对着屏幕直接写代码。这个功能实在是太神了，就是不知道对于程序员来说“是不是一件好事”…

在视频交互方面，GPT-4o也「长了眼睛」：它可以直接打开摄像头，实时观察屏幕前的人在做什么。

比如现场研发负责人Barret手写了一个方程，并打开摄像头拍给GPT-4o，它能够一步一步地讲解出解题步骤，并且在解题的过程中，充分给出引导与鼓励。

行，比我老师强，她只会骂我（不是）。

此外，GPT-4o 在理解和生成图像方面的能力比任何现有模型都要好得多，完成了很多之前不能完成的“壮举”！

比如，你可以让它帮忙把OpenAI的logo印到杯垫上：

同时，GPT-4o还拥有3D视觉内容生成的能力，能够从6个生成的图像进行 3D 重建：

与GPT-4o合作，你只需要输入几段文字，就能得到一组连续的漫画分镜：

GPT-4o还拥有者诸如“数据分析、渲染、复杂排版、文本转艺术字”等拓展功能甚至是小众功能，也等待你的挖掘~

不得不说…牛！

桌面版？来了！

为了让每一个“GPT粉丝”都能够随时随地的使用GPT-4o，OpenAI还发布了ChatGPT的桌面版本。

桌面版本的ChatGPT-4o，拥有着全新的界面，并且专门打造了桌面程序，极大地便捷了工作使用时的效率。

想要调出GPT-4o也很简单，只需要同时按住Option+空格键，便可以轻松使用了。

甚至在使用的过程中，你可以实时截图，并且实时进行提问，然后你要做的事儿就是：看GPT-4o表演。

不过话又说回来…我用GPT-4o办公，老板不会说我摸鱼吧…

数据之王，“遥遥领先”！

在发布会现场，OpenAI 首席技术官穆里・穆拉蒂还公布了GPT-4o的详细ELO排名和各项参数。

这里还有个“小插曲”，在公布参数之前，我们居然发现，这么牛的GPT-4o，居然是我们的“熟客”。

因为就在几天前，大模型LMSYS竞技场上，一个名为“im-also-a-good-gpt2-chatbot”神秘模型突然现身，并且开始“嘎嘎乱杀”的模式，并且给了GPT-4狠狠一嘴巴。

全网纷纷猜测，这个模型，可能就是GPT-4.5/GPT-5。

没想到，都不是，它是4o！咋呢，跟哥几个还玩上无间道了。

在文本、代码、能力方面，则和GPT-4不分伯仲的同时，GPT-4o在参数方面还以1310的分数遥遥领先。

啧…既便宜又高效，这真成了降维打击了啊。

而且在发布会的最后，OpenAI团队还特意感谢了英伟达的“老黄”，并对其GPU的性能提出了高度的赞扬。

嗯…黄董广告费交一下。

写在最后

可以说，这次的ChatGPT-4o的发布会，的确亮点“过多”，基本看到一个功能就会让人在心里下意识的来一句：vocal！

不过…刚刚震惊了半小时，发布会居然就结束了，这大概也是唯一一个“美中不足”吧。

反正呢，咱就等着GPT-4o能够真正用上的那天了，浅浅期待一手“虚拟形象”，那以后真就能和AI谈恋爱了吧！

最后，如果大家对于「GPT-4o」有想要聊的，欢迎在评论区留言分享给其他人哦~也说说你对于AI的期待吧~

-阅读更多-

		记住	找回密码
密码			加入慢享