找回密码
 加入慢享
猜你喜欢
旅行常客论坛

OpenAI深夜王炸!GPT-4o发布,这次真的成精了?

[复制链接]
发表于 2024-5-14 17:24:22 | 显示全部楼层 |阅读模式
点击上方名片关注我们

Chat GPT 又双叒叕更新了!
今天深夜1点,OpenAI春季发布会抢在谷歌开发者大会迅速召开!
不过,这次发布会和我们预料的似乎有所不同,不是网络上呼声很高的「搜索引擎」,也不是“大版本跃迁”的「GPT5」,而是…GPT-4o。
在不到半小时的线上发布会上,OpenAI的首席技术官米拉·穆拉蒂宣布GPT-4的一系列升级。
总的来说,GPT-4o 是面向未来人机交互范式的全新大模型,具有文本、语音、图像三种模态的理解力,反应极快还带有感情,也很通人性。
听起来确实干货满满,也似乎包含着整个GPT团队的「雄心壮志」。一起来看看都更新了啥吧!


真的更像人了!

发布会刚开始,大家都很奇怪,本来说的「天花乱坠」,让大家「期待十足」,怎么着也得弄个GPT5吧?这4o是几个意思?

没想到,GPT-4o的o翻译过来,居然是“Omni”,按照字面意思来理解的话,就是“全知全能”。

好家伙,直接明确了OpenAI对于这一次更新的期盼值有多高了。

发布会刚开始,米拉·穆拉蒂就上台阐述了自己的“野心”,并说明:OpenAI的目标是进一步减小人们使用AI的障碍,让所有人都能在工作、学习、创造中用上AI工具。

而为了达成这个目的,OpenAI一共做了三件事:公平,公平,还是挺忙的公平… 发布更强大的模型GPT-4o,更新用户界面提高使用体验,然后一口气免费开放给用户

什么?免费??居然免费??

当然,虽然免费了,却依然有“付费模式”可选,而一旦你选择了付费模式,你就会「立享尊贵的5倍信息流限制」。也就是说,免费用户能和GPT-4o说话的次数x5,就是尊贵的“会员权限”了。(没理解错吧!)


更加快了!

如果你用了4o的,第一感觉就是快!太快了!

此前GPT-3.5语音对话的平均延迟为2.8秒、GPT-4为5.4秒,音频在输入时还会由于处理方式丢失大量信息,无法识别笑声、歌唱声和情感表达等。

而GPT-4o可以在232毫秒内对音频输入做出反应,甚至还能随意打断,与人类在对话中的反应时间相近,彻底颠覆了以往的“语音助手”。

啥意思呢?它要比你所有的大模型都要快,就是说你吵不过AI了!


更像人了!

快只是“开胃小菜”,GPT-4o还改进了GPT在文本、视觉以及音频方面的能力。并且它能以平均320毫秒,做出响应。

听起来挺“硬”,但实际上,就是GPT-4o的所有表述更像是“人类”了,并且能够通过你的语音,分析你的语气进行“察言观色”,并且实时推理,给你一个绝对正确且满足你情绪的答案。

而且,在和GPT-4o对话的时候,你可以无视环境,无视语序,随时插嘴,粗暴打断。

在这种情况下,模型也能够进行实时响应,对你在任何时间所说的任何话做出一个明确合理的回答。

比如,在研发负责人Mark Chen向模型说明自己在台上很紧张时,GPT-4o给出的回复是:你在台上做演示吗,你很棒哦!深呼吸一下,你可是个专家!

而当Mark Chen真的猛烈呼吸了几下之后,GPT-4o也准确的抓住了这点,回复到:放松啊Mark,你可不是个吸尘器。

神了啊,神了,我哥们儿都没这么能察言观色!

GPT-4o还能够“用自己的情绪讲故事”。简单来说,就是你可以指定它的语气,让它变得更加情绪化,更有戏剧性,甚至还能要求它模仿机器人和唱歌的声音的声音!

最后,当现场在纸上写下“我爱GPT”后,GPT-4o在摄像头捕捉到之后,居然发出了一声“尖叫”,然后大声回答:你你你居然我爱我,你太可爱了!

…算是充分满足了老夫的少女心。这一波,情绪价值拉满!


更全能了!

GPT-4o的功能远不止于此。在发布会上,OpenAI团队讲述到:为了真正实现「让AGI惠及全人类」,我们的GPT-4o有50种语言的版本,并改进了推理的质量和速度。

这也就意味着,GPT-4o基本覆盖了全球的语言和地区!

而且 ,实时翻译也不在话下,现场也演示了手机可以拿来当翻译机去来回翻译西班牙语和英语。 试想一波,出国旅行带着 GPT 就像随身带着一个会所有语言的翻译一样,简直不要太爽。

GPT-4o还可以打开摄像头,直接看屏幕,对着屏幕直接写代码。这个功能实在是太神了,就是不知道对于程序员来说“是不是一件好事”…

在视频交互方面,GPT-4o也「长了眼睛」:它可以直接打开摄像头,实时观察屏幕前的人在做什么。

比如现场研发负责人Barret手写了一个方程,并打开摄像头拍给GPT-4o,它能够一步一步地讲解出解题步骤,并且在解题的过程中,充分给出引导与鼓励。

行,比我老师强,她只会骂我(不是)。


此外,GPT-4o 在理解和生成图像方面的能力比任何现有模型都要好得多,完成了很多之前不能完成的“壮举”!
比如,你可以让它帮忙把OpenAI的logo印到杯垫上:
同时,GPT-4o还拥有3D视觉内容生成的能力,能够从6个生成的图像进行 3D 重建:
与GPT-4o合作,你只需要输入几段文字,就能得到一组连续的漫画分镜:
GPT-4o还拥有者诸如“数据分析、渲染、复杂排版、文本转艺术字”等拓展功能甚至是小众功能,也等待你的挖掘~
不得不说…牛!



桌面版?来了!

为了让每一个“GPT粉丝”都能够随时随地的使用GPT-4o,OpenAI还发布了ChatGPT的桌面版本。

桌面版本的ChatGPT-4o,拥有着全新的界面,并且专门打造了桌面程序,极大地便捷了工作使用时的效率。

想要调出GPT-4o也很简单,只需要同时按住Option+空格键,便可以轻松使用了。

甚至在使用的过程中,你可以实时截图,并且实时进行提问,然后你要做的事儿就是:看GPT-4o表演。

不过话又说回来…我用GPT-4o办公,老板不会说我摸鱼吧…



数据之王,“遥遥领先”!

在发布会现场,OpenAI 首席技术官穆里・穆拉蒂还公布了GPT-4o的详细ELO排名和各项参数。

这里还有个“小插曲”,在公布参数之前,我们居然发现,这么牛的GPT-4o,居然是我们的“熟客”。

因为就在几天前,大模型LMSYS竞技场上,一个名为“im-also-a-good-gpt2-chatbot神秘模型突然现身,并且开始“嘎嘎乱杀”的模式,并且给了GPT-4狠狠一嘴巴。

全网纷纷猜测,这个模型,可能就是GPT-4.5/GPT-5。

没想到,都不是,它是4o!咋呢,跟哥几个还玩上无间道了。

在文本、代码、能力方面,则和GPT-4不分伯仲的同时,GPT-4o在参数方面还以1310的分数遥遥领先。

啧…既便宜又高效,这真成了降维打击了啊。

而且在发布会的最后,OpenAI团队还特意感谢了英伟达的“老黄”,并对其GPU的性能提出了高度的赞扬。

嗯…黄董广告费交一下。


写在最后

可以说,这次的ChatGPT-4o的发布会,的确亮点“过多”,基本看到一个功能就会让人在心里下意识的来一句:vocal!

不过…刚刚震惊了半小时,发布会居然就结束了,这大概也是唯一一个“美中不足”吧。

反正呢,咱就等着GPT-4o能够真正用上的那天了,浅浅期待一手“虚拟形象”,那以后真就能和AI谈恋爱了吧!

最后,如果大家对于「GPT-4o」有想要聊的,欢迎在评论区留言分享给其他人哦~也说说你对于AI的期待吧~

-阅读更多-

回复

使用道具 举报

快速回复 返回顶部 返回列表