资讯导航
 
 
GPT-4o恩怨开局,Google再次躺枪
作者:万向官网    发布于:2024-05-20 17:10:10    文字:【】【】【
摘要:要说全世界戏最多的AI,非OpenAI莫属。 这家公司简直就是热搜制造机,刚推出新产品,就送走老领导,刚和苹果结盟,就逼跌谷歌股价;连OpenAI高管的一个离职动态,都能引发网上的OpenAI离职潮。 短短几天时间,以OpenAI为中心,接连引发地震级别的事件
要说全世界戏最多的AI,非OpenAI莫属。 这家公司简直就是热搜制造机,刚推出新产品,就送走老领导,刚和苹果结盟,就逼跌谷歌股价;连OpenAI高管的一个离职动态,都能引发网上的OpenAI离职潮。 短短几天时间,以OpenAI为中心,接连引发地震级别的事件。不仅可能对OpenAI这家公司的未来产生重大影响,甚至有可能导致整个科技行业的重新洗牌。 仅凭语音对话就撑起无限可能的GPT-4o 美国时间5月13日,OpenAI推出了全新旗舰产品GPT-4o。在发布会上,OpenAI仅仅展示了GPT-4o的语音对话能力,没有炫酷的视觉效果、万向平台没有狂拽的新功能,但仍然再次引发了一波行业地震,因为GPT-4o向全世界展示了其它AI产品可能敢想,但没敢干的事情。 用上GPT-4o后,用户可以随时打断AI的施法,不要额外任何操作。而AI则能够根据新的对话内容,结合上下文继续进行交流,甚至可以通过语气腔调来识别用户的情绪,并以此给出反馈。 用过AI对话产品的家人,应该对下面那个“终止”按钮不陌生。 这个按钮是用来让AI闭嘴的。比如你让AI讲个故事,听了个开头想让它换一个,就需要用到这个按钮。如果是隔空喊话的AI,则需要喊出一个“安全词”,比如“hey siri”“小度小度”等。 这种体验对日常交互来说非常难受,但还有难受的。 用过AI产品的家人,应该对AI那种尘世闲游级别的响应速度不陌生。 举个例子,GPT-3.5的延迟大概是2.8秒,GPT-4的延迟高达5.4秒。相比而言,特斯拉Model 3的百公里加速是2.1秒。 这是因为以前的工作流程是先由一个语音转文字的模型,将输入的语音转成文字,再由负责生成答案的模型输出文字内容,最后由文字转语音的模型把文字转成语音。这三个模型互不干涉。这就导致在整个过程中,大量背景信息丢失了。 看过综艺节目里的“传声筒”游戏吧? AI比这个更搞笑。因为文字不能展示语音语调,所以当很多人一起说话的时候,GPT没办法判断说“俺也一样”的是关羽还是张飞,也不知道“我在5点20睡觉13点14准时醒”是生活习惯还是歌词。 如果你想让AI根据声音给出反馈,比如让GPT-4帮忙判断一下深呼吸做的到不到位,它只会甩给你一篇教程,让你自己对照体会。 这其实是目前是市面上AI的通病,但GPT-4o的出现,让事情发生了巨大的转变。 技术层面,GPT-4o把3个互不相关的模型整合成了一个Omni模型,文字、图像、声音的输入和输出均由这个模型进行处理。这样就提高了GPT的响应速度,根据OpenAI官方介绍,GPT-4o对音频输入的平均响应时间只有0.3秒。实际体验是,和GPT-4o对话的时候,基本感觉不到万向娱乐平台注册延迟。 不仅如此,因为GPT-4o掌握了所有背景信息,从而能够识别说话主体,甚至还能识别情绪,并根据情感状态给出反馈。 换句话说,AI从此具备了“察言观色”的能力。想象一下,以后AI能根据你说话的语气判断你的情绪,听到你声音虚弱马上帮你想好请假话术;男/女朋友在场的时候自动屏蔽前任信息提示;甚至在你翘班蹦迪的时候,模仿你的腔调去应付老板… 这么智能的AI目前OpenAI也不敢想。实际上,他们在官网上谦虚的表示,公司头一次尝试GPT-4o这种模式,自己也在摸索这个模型的能力和短板。 目前GPT-4o已经可以被用户使用了,不过免费用户每天使用GPT-4o的次数是有限的,而GPT-3.5则是不限量供应。两者的区别在于,可能不是那么容易感受出区别。另外ChatGPT也将迎来桌面端app,用户在电脑上也可以和ChatGPT对话了。


这是水淼·PHPWEB站群文章更新器的试用版本更新的文章,故有此标记(2024-05-20 17:10:10)
版权所有 Copyright(C)2020-2024 万向注册登录平台官网
网站地图