不开玩笑,电影《她》真的来了。
OpenAI最新旗舰大模型GPT-4o,不仅免费可用,能力更是横跨听、看、说,丝滑流畅毫无延迟,就像在打一个视频电话。
现场直播的效果更是炸裂:
它能感受到你的呼吸节奏,也能用比以前更丰富的语气实时回复,甚至可以做到随时打断。
GPT-4o里的“o”是Omni的缩写,也就是“全能”的意思,接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出。
它可以在短至232毫秒、平均320毫秒的时间内响应音频输入,与人类在对话中的反应速度一致。
这还是一份给所有人的大礼,GPT4-o与ChatGPT Plus会员版所有的能力,包括视觉、联网、记忆、执行代码、GPT Store……
将对所有用户免费开放!
(新语音模式几周内先对Plus用户开放)
GPT-4o的问世引发了广泛关注,但它究竟是如何实现技术突破的呢?
这一新模型通过端到端训练,将文本、视觉和音频整合为一个神经网络处理,实现了前所未有的综合性能。
但这只是冰山一角,让我们深入了解这个技术的奥秘。
GPT-4o的出现将推动人工智能技术的应用发展迈入新的阶段。
从替代盲人感知世界到提供更加智能化的语音交互,GPT-4o带来的应用前景令人无限遐想。
那么,我们又将迎来哪些全新的应用场景呢?
GPT-4o的推出意味着用户将体验到前所未有的交互体验。
无论是语音、文本还是图像,GPT-4o都能提供出色的响应速度和智能化交互,为用户带来革命性的体验。
那么,在这个交互体验的时代,我们又将迎来怎样的变革呢?
鉴于之前不少人就已经和ChatGPT语音模式“谈恋爱”了,有大胆想法的朋友,可以把你们的想法发在评论区了。
知道OpenAI发布会为什么定在谷歌I/O前一天了——打脸,狠狠打脸。
谷歌Gemini发布会需要靠剪辑视频和切换提示词达成的伪实时对话效果,OpenAI现场全都直播演示了。
比如让ChatGPT在语言不通的两个人之间充当翻译机,听到英语就翻译成意大利语,听到意大利语就翻译成英语。
发布会直播之外,总裁哥Brockman还发布了额外的5分钟详细演示。
而且是让两个ChatGPT互相对话,最后还唱起来了,戏剧感直接拉满。
这两个ChatGPT,一个是旧版APP,只知道对话,另一个则是新版网页,具备视觉等新能力。(我们不妨取Old和New的首字母,分别叫TA们小O和小N)
Brockman首先向小O介绍了大致情况,告诉她要和一个拥有视觉能力的AI对话,她表示很酷并欣然接受。
接着,Brockman让她稍作休息,并向小N也介绍情况,还顺带展示了小N的视觉能力。
只见打完招呼后,小N准确地说出了Brockman的衣着打扮和房间环境