AMZ123跨境卖家导航
拖动LOGO到书签栏,立即收藏AMZ123
首页跨境头条文章详情

遥遥领先的OpenAI慢下来了

1321
2024-05-14 22:01
2024-05-14 22:01
1321

【跨境合规实战训练营】“关、汇、税、商”系统搭建,点击获取跨境合规解决方案>>>

“如果发布的是 GPT-5,那 OpenAI 依然遥遥领先。如果是 AI Search 或者是语音助手,那就说明 OpenAI 没落了。”

一位 AI 大模型从业者告诉虎嗅,业内对 OpenAI 的期待太高,除非是 GPT-5 这样的颠覆式创新,否则很难满足观众的“胃口”。

虽然 Sam Altman 在 OpenAI 线上直播前,已经预告不会发布 GPT-5(或 GPT-4.5),但外界对 OpenAI 的期待早已是九牛拉不转了。

北京时间 5 月 14 日凌晨,OpenAI 公布了最新的 GPT-4o,o 代表 Omnimodel(全能模型)。20 多分钟的演示直播,展示了远超当前所有语音助手的 AI 交互体验,与外媒此前透露的消息基本重合。

虽然 GPT-4o 的演示效果仍可称得上“炸裂”,但业内人士普遍认为很难配得上 Altman 预告中的“魔法”二字。很多人认为,这些功能性的产品,都是“偏离 OpenAI 使命”的。

OpenAI 的 PR 团队似乎也预料到了这种舆论走向。发布会现场以及会后 Altman 发布的博客中对此解释道:

“我们使命的一个关键部分是将非常强大的人工智能工具免费(或以优惠的价格)提供给人们。我非常自豪我们在 ChatGPT 中免费提供了世界上最好的模型,没有广告或类似的东西。 

当我们创办 OpenAI 时,我们最初的想法是我们要创造人工智能并利用它为世界创造各种利益。相反,现在看起来我们将创造人工智能,然后其他人将使用它来创造各种令人惊奇的事物,让我们所有人都受益。”

遥遥领先的 GPT-4o

“如果我们必须等待 5 秒钟才能得到‘每个’回复,用户体验就会一落千丈。即使合成音频本身听起来很真实,它也会破坏沉浸感,让人感觉毫无生气。”

在 OpenAI 发布会前夕,英伟达 Embodied AI 负责人 Jim Fan 在 X 上预测了 OpenAI 会发布的语音助手,并提出:

几乎所有的语音 AI 都会经历三个阶段:

1. 语音识别或“ASR”:音频->文本1,例如 Whisper;

2. 计划下一步要说什么的 LLM:text1 -> text2;

3. 语音合成或“TTS”:text2 ->音频,例如 ElevenLabs 或 VALL-E。

经历 3 个阶段会导致巨大的延迟。

GPT-4o 在响应速度方面,几乎解决了延迟问题。GPT-4o 的响应音频输入的最短时长为 232 毫秒,平均响应时长 320 毫秒,几乎与人类相似。没有使用 GPT-4o 的 ChatGPT 语音对话功能平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒(GPT-4)。

GPT-4o 不仅通过缩短延迟极大地提升了体验,还在 GPT-4 的基础上做了很多升级包括:

1、极佳的多模态交互能力,包括语音、视频,以及屏幕共享。

2、可以实时识别和理解人类的表情,文字,以及数学公式。

3、交互语音感情丰富,可以变换语音语调、风格,还可以模仿,甚至“即兴”唱歌。

4、超低延时,且可以在对话中实时打断 AI,增加信息或开启新话题。

5、所有 ChatGPT 用户均可免费使用(有使用上限)。

6、速度是 GPT-4 Turbo 的 2 倍,API 成本低 50%,速率限制高 5 倍。

“没落”的 OpenAI

“这些局限性的突破都是创新。”

有业内专家认为,GPT-4o 的多模态能力只是“看起来”很好,实际上 OpenAI 并未展示对于视觉多模态来说真正算是“突破”的功能。

这里我们按大模型行业的习惯,对比一下隔壁厂 Anthropic 的 Claude 3。

Claude 3 的技术文档中提到,“虽然 Claude 的图像理解能力是尖端的,但需要注意一些局限性”。

其中包括:

1、人物识别:Claude 不能用于在图像中识别(即姓名)人物,并将拒绝这样做。

2、准确性:Claude 在解释 200 像素以下的低质量、旋转或非常小的图像时,可能会产生幻觉或犯错误。

3、空间推理:克劳德的空间推理能力有限。它可能很难完成需要精确定位或布局的任务,例如读取模拟钟面或描述棋子的确切位置。

4、计数:Claude 可以给出图像中物体的近似计数,但可能并不总是精确准确的,特别是对于大量小物体。

5、AI 生成的图像:Claude 不知道图像是否是人工智能生成的,如果被问到,可能不正确。不要依赖它来检测假图像或合成图像。

6、不适当的内容:Claude 不会处理违反我们可接受使用政策的不适当或露骨的图像。

7、医疗保健应用:虽然 Claude 可以分析一般医学图像,但它不是为解释 CT 或 MRI 等复杂诊断扫描而设计的。Claude 的输出不应被视为专业医疗建议或诊断的替代品。

在 GPT-4o 网站发布的案例中,有一些与“空间推理”有相关的能力,但仍难算得上突破。

此外,从发布会现场演示中 GPT-4o 输出的内容很容易看出,其模型能力与 GPT-4 相差并不大。

GPT-4o 跑分

虽然模型可以在对话中增加语气,甚至即兴演唱,但对话内容还是与 GPT-4 一样缺乏细节和创造力。

此外,发布会后 OpenAI 官网还发布了 GPT-4o 的一系列应用案例探索。包括:照片转漫画风格;会议记录;图片合成;基于图片的 3D 内容生成;手写体、草稿生成;风格化的海报,以及连环画生成;艺术字体生成等。

而这些能力中,照片转漫画风格、会议记录等,也都是一些看起来很普通的文生图或者是AI大模型功能。

能挑战现有的商业模式吗?

“我注册 5 个免费的 ChatGPT 账号,是不是就不需要每月花 20 美元订阅 ChatGPT Plus 呢?”

OpenAI 公布的 GPT-4o 使用政策是 ChatGPT Plus 用户比限制普通用户的流量限制高 5 倍。

GPT-4o 对所有人免费,首先挑战的似乎是 OpenAI 自己的商业模型。

第三方市场分析平台 Sensor Tower 公布的数据显示,过去一个月中,ChatGPT 在全球 App Store 中的下载量为 700 万,订阅收入 1200 万美元;全球 Google Play 市场的下载量为 9000 万,订阅收入 300 万美元。

目前,ChatGPT Plus 在两个应用商店的订阅价格均为 19.99 美元。由订阅数据推断,ChatGPT Plus 过去一个月中,通过应用商店付费的订阅用户数为 75 万。虽然 ChatGPT Plus 还有大量的直接付费用户,但从手机端的收入来看,每年进项才不到 2 亿美元,再翻几倍也很难撑起 OpenAI 近千亿的估值。

由此来看,OpenAI 在个人用户充值方面,其实并不需要考虑太多。

更何况 GPT-4o 主打体验好,如果你跟 AI 聊着聊着就断了,还要换账号重新聊,那你会不会愤然充值呢?

“最初的 ChatGPT 暗示了语言界面的可能性;这个新事物给人的感觉有本质上的不同。它快速、智能、有趣、自然且有帮助。”

Sam Altman 的最新博客中提到了“语言界面的可能性”,这也正是 GPT-4o 接下来可能要做的:挑战所有 GUI(图形交互界面),以及想要在 LUI(语音交互界面)上发力的人。

结合近期外媒透出的 OpenAI 与苹果合作的消息,可以猜测 GPT-4o 可能很快就要对所有 AI PC、AI 手机的厂商“抛橄榄枝”或是“掀桌子”。

不管是哪种语音助手或是 AI 大模型,对于 AIPC、AI 手机来说核心价值都是优化体验,而 GPT-4o 一下把体验优化到了极致。

GPT-4o 很可能会卷到所有已知的 App,甚至是 SaaS 行业。过去一年多时间里,市场上所有已经开发和正在开发的 AI Agent 都会面临威胁。

某位资源聚合类 app 产品经理曾对虎嗅表示,“我的操作流程就是产品的核心,如果操作流程被你 ChatGPT 优化了,那相当于我的 App 没价值了。”

试想,如果订外卖的 App,UI 变成了一句话“给我订餐”,那打开美团还是打开饿了么,对于用户来说就一样了。

厂商的下一步只能是压缩供应链、生态的利润空间,甚至是恶性价格战。

从目前的形式来看,其他厂商要在模型能力上打败 OpenAI 恐怕还需要一段时间。

产品要对标 OpenAI,可能只有通过做更“便宜”的模型了。

对于国内产业的影响

“最近忙死了,没顾上关注他们。”

一位工业 AI 大模型创始人告诉虎嗅,近期一直在忙着沟通战略合作、产品发布、客户交流资本交流,完全没有时间关注 OpenAI 这种发布。

OpenAI 发布前,虎嗅也询问了多位来自各行各业的国内 AI 从业者,他们对 OpenAI 最新发布的预测与看法都很一致:非常期待,但与我无关。

一位从业者表示,从国内目前的进度来看,要在短期内追上 OpenAI 不太现实。所以关心 OpenAI 发布了什么,最多也就是看看最新的技术方向。

目前国内公司在 AI 大模型研发方面,普遍比较关注工程化和垂直模型,这些比较务实、容易变现的方向。

在工程方面,近期蹿红的 Deepseek 就正在国内大模型行业中掀起 Token 的价格战。在垂直模型方面,多位业内人士告诉虎嗅,短期内小模型和垂直模型的研发,基本都不会受到 OpenAI 的裹挟。

“有时候 OpenAI 的技术方向也不是很值得借鉴。”一位模型专家对虎嗅表示,Sora 就是个很好的例子,2024 年 2 月 OpenAI 发布了视频模型 Sora,实现了 60 秒的视频稳定输出。虽然看起来效果很好,但后续的实践几乎没有,落地速度也非常慢。

在 Sora 之前,国内很多在文生视频领域发力的公司和机构已经实现了 15 秒稳定视频生成,而 Sora 出来以后,一些公司的研发、融资、产品节奏都被打乱了,甚至使整个文生视频行业的发展演变成了一场“技术的大跃进”。

所幸,这次 GPT-4o 与 Sora 大有不同。OpenAI CTO Muri Murati 表示,在接下来的几周内,我们将继续我们的迭代部署,为您提供所有功能。

发布会结束不久,GPT-4o 就已经可以上线试用了。

3.12 厦门coupang-文章页底部图片
免责声明
本文链接:
本文经作者许可发布在AMZ123跨境头条,如有疑问,请联系客服。
最新热门报告作者标签
26年澳洲情人节支出将达5.5亿澳元,消费意愿下降
AMZ123获悉,近日,根据澳大利亚零售协会(ARC)和Roy Morgan的最新调查,澳大利亚情人节的消费意愿出现明显下降,越来越多消费者在成本压力下减少对非必需品的支出,但参与者的平均支出仍保持稳定。调查显示,成本上涨正在持续影响家庭的可支配支出,许多家庭对非必需开支更加谨慎。今年仅有12%的澳大利亚成年人计划庆祝情人节,约为300万人,比去年下降4个百分点。与去年相比,计划为伴侣购买礼物的人数减少约80万人,主要原因是生活成本压力持续影响可自由支配支出。尽管参与人数下降,但澳大利亚情人节支出预计达到5.5亿澳元,较去年增长2.8%,人均支出约为152澳元。
Seedance2.0刷屏全网,TikTok卖家:红利来了!
字节正式发布Seedance2.0,TikTok卖家已经用上赚钱了!
月销数十万!这10个小众产品爆单亚马逊
AMZ123获悉,近日,亚马逊各类产品搜索量增长显著,以下10款产品在亚马逊上销量表现突出,深受消费者欢迎。1.修复眼罩预计销售额:50万美元/月销量:5000+星级评分:4.3好评数量:8,505+图源:亚马逊产品介绍:该修复眼罩主要是专为眼部抗衰老与焕亮设计,通过缓释视黄醇成分有效减少细纹、改善皮肤饱满度,并针对性缓解黑眼圈与浮肿问题。产品采用融合海藻提取物、神经酰胺及脂肪酸的复合配方,能在夜间修复阶段滋养娇嫩眼周肌肤。适用于熬夜、疲劳或重要场合前的密集护理,亦可作为礼品。品牌介绍:Grace & Stella是一家成立于2016年的品牌,以“创造美好时刻”为核心理念,致力于通过日常护理提升生活品质。
Jumia 25财年营收1.9亿美元,同比增长13%
AMZ123获悉,近日,非洲电商平台Jumia发布了截至2025年12月31日的全年及第四季度财报。Jumia在2025年实现了GMV和收入增长,预计2026年有望保持强劲增长。以下为Q4财务亮点:①营收为6140万美元,同比2024年第四季度的4570万美元增长34%,按固定汇率计算增长24%。②GMV为2.795亿美元,同比2024年第四季度的2.061亿美元增长36%,按固定汇率计算增长23%。剔除南非和突尼斯市场,实物商品GMV同比增长38%。③运营亏损为1060万美元,同比2024年第四季度的1730万美元下降39%,按固定汇率计算下降22%。
血亏500万,跨境“黄金搭档”正式散伙
这两天,跨境圈又冒出一条不太体面的公告。不是封号,不是裁员,而是一场曾被寄予厚望的上市公司级合作,正式宣告失败。1月23日,浙江永强发布公告,确认与跨境大卖傲基股份中止跨境电商合作。双方通过互相转让子公司股权,彻底清空交叉持股关系。一句话概括这段合作的结局:故事很完整,结果很现实。图源网络,侵删01从制造+跨境的理想模版,到体面分手时间回到2023年11月。当时的傲基,已经完成从3C铺货向家居、家具赛道的转型;而浙江永强,作为国内户外家具龙头,正寻找新的增长出口。
暴涨94%!25年TikTok Shop全球GMV达643亿美元
AMZ123获悉,近日,据Momentum的最新报告显示,2025年,美国仍是TikTokShop最大的市场,GMV达到151亿美元,同比增长68%,高于2024年的90亿美元。尽管增速不及2024年爆发式增长,但仍显示出强劲扩张势头,反映出TikTok Shop正在从初期试验阶段向系统化运营阶段过渡。全球范围内,TikTok Shop在16个市场的总GMV达到643亿美元,同比大幅增长94%。其中,东南亚市场依然是主要增长引擎,2025年东南亚地区GMV同比增长一倍,达到456亿美元。马来西亚、印尼和泰国的增长最为突出,其中印尼市场达到131亿美元,成为TikTok Shop全球第二大市场。
新一轮物流危机来袭,大批跨境货物滞留港口!
腊月尾声,年味渐浓,状况频出的物流难题却成为了横亘在卖家面前的一头“年兽”。随着全国主要港口拥堵、陆路运费疯涨的事态持续升温,物流延误焦虑正在跨境电商行业蔓延。AMZ123了解到,春节前夕历来是跨境电商的出货高峰期——在国外不停卖、国内要放假、物流时效长、怕平台断货等多重因素的叠加影响下,大批卖家通常会抢在节前集中把货物发出。但在今年,这一出货高峰期带来的连锁效应格外汹涌。据物流人士透露,2026年2月,上海、宁波、盐田、南沙等主要港口都进入了超负荷运行状态,出现严重爆仓、收箱收紧等情况,导致大量卖家货物堆积在码头,面临甩柜率高企的风险。
月销百万美金!亚马逊10款高复购+高评分产品推荐
AMZ123获悉,近日,亚马逊各类产品搜索量增长显著,以下10款产品在亚马逊上销量表现突出,深受消费者欢迎。1. 智能戒指预计销售额:819万美元/月销量:32,050+星级评分:4.1好评数量:8,284+图源:亚马逊产品介绍:该智能戒指通过内置传感器持续监测用户的睡眠、活动、心率、体温变化等多项健康数据,并通过手机应用进行整合分析。产品采用全钛金属结构,支持全天候佩戴,具备防水性能和较长续航时间。相比传统可穿戴设备,其无屏幕设计降低了使用干扰,更侧重长期健康数据的连续采集与趋势分析。品牌介绍:Oura 是一家成立于 2013 年的芬兰健康科技公司,以智能戒指作为核心产品,聚焦睡眠与身体恢复管理。
月销数十万!这10个小众产品爆单亚马逊
AMZ123获悉,近日,亚马逊各类产品搜索量增长显著,以下10款产品在亚马逊上销量表现突出,深受消费者欢迎。1.修复眼罩预计销售额:50万美元/月销量:5000+星级评分:4.3好评数量:8,505+图源:亚马逊产品介绍:该修复眼罩主要是专为眼部抗衰老与焕亮设计,通过缓释视黄醇成分有效减少细纹、改善皮肤饱满度,并针对性缓解黑眼圈与浮肿问题。产品采用融合海藻提取物、神经酰胺及脂肪酸的复合配方,能在夜间修复阶段滋养娇嫩眼周肌肤。适用于熬夜、疲劳或重要场合前的密集护理,亦可作为礼品。品牌介绍:Grace & Stella是一家成立于2016年的品牌,以“创造美好时刻”为核心理念,致力于通过日常护理提升生活品质。
新一轮物流危机来袭,大批跨境货物滞留港口!
腊月尾声,年味渐浓,状况频出的物流难题却成为了横亘在卖家面前的一头“年兽”。随着全国主要港口拥堵、陆路运费疯涨的事态持续升温,物流延误焦虑正在跨境电商行业蔓延。AMZ123了解到,春节前夕历来是跨境电商的出货高峰期——在国外不停卖、国内要放假、物流时效长、怕平台断货等多重因素的叠加影响下,大批卖家通常会抢在节前集中把货物发出。但在今年,这一出货高峰期带来的连锁效应格外汹涌。据物流人士透露,2026年2月,上海、宁波、盐田、南沙等主要港口都进入了超负荷运行状态,出现严重爆仓、收箱收紧等情况,导致大量卖家货物堆积在码头,面临甩柜率高企的风险。
血亏500万,跨境“黄金搭档”正式散伙
这两天,跨境圈又冒出一条不太体面的公告。不是封号,不是裁员,而是一场曾被寄予厚望的上市公司级合作,正式宣告失败。1月23日,浙江永强发布公告,确认与跨境大卖傲基股份中止跨境电商合作。双方通过互相转让子公司股权,彻底清空交叉持股关系。一句话概括这段合作的结局:故事很完整,结果很现实。图源网络,侵删01从制造+跨境的理想模版,到体面分手时间回到2023年11月。当时的傲基,已经完成从3C铺货向家居、家具赛道的转型;而浙江永强,作为国内户外家具龙头,正寻找新的增长出口。
暴涨94%!25年TikTok Shop全球GMV达643亿美元
AMZ123获悉,近日,据Momentum的最新报告显示,2025年,美国仍是TikTokShop最大的市场,GMV达到151亿美元,同比增长68%,高于2024年的90亿美元。尽管增速不及2024年爆发式增长,但仍显示出强劲扩张势头,反映出TikTok Shop正在从初期试验阶段向系统化运营阶段过渡。全球范围内,TikTok Shop在16个市场的总GMV达到643亿美元,同比大幅增长94%。其中,东南亚市场依然是主要增长引擎,2025年东南亚地区GMV同比增长一倍,达到456亿美元。马来西亚、印尼和泰国的增长最为突出,其中印尼市场达到131亿美元,成为TikTok Shop全球第二大市场。
26年澳洲情人节支出将达5.5亿澳元,消费意愿下降
AMZ123获悉,近日,根据澳大利亚零售协会(ARC)和Roy Morgan的最新调查,澳大利亚情人节的消费意愿出现明显下降,越来越多消费者在成本压力下减少对非必需品的支出,但参与者的平均支出仍保持稳定。调查显示,成本上涨正在持续影响家庭的可支配支出,许多家庭对非必需开支更加谨慎。今年仅有12%的澳大利亚成年人计划庆祝情人节,约为300万人,比去年下降4个百分点。与去年相比,计划为伴侣购买礼物的人数减少约80万人,主要原因是生活成本压力持续影响可自由支配支出。尽管参与人数下降,但澳大利亚情人节支出预计达到5.5亿澳元,较去年增长2.8%,人均支出约为152澳元。
Bol发布25年财报:交易额达63亿欧元,同比增长8.4%
AMZ123获悉,近日,波兰电商平台Bol母公司Ahold Delhaize发布了截至2025年12月31日的2025财年及第四季度财务报告,Bol实现历史最佳季度表现,并带动全年业绩稳步增长。以下为2025财年财务亮点:①Bol平台整体交易额(Handelsvolume)同比增长8.4%,达到63亿欧元。②Bol净销售额31亿欧元,同比增长8.7%。③Bol营业收入34亿欧元(不含第三方商家销售额),同比增长8.6%。④Bol卖家累计销售额同比增长4.1%,达到59亿欧元。⑤Bol全年毛利润达到2.07亿欧元,同比增长12.2%。
《中企出海美国季度研究报告》PDF下载
近年来,随着全球化进程的深化与中国经济实力的持续提升,越来越多的中国企业将目光投向海外市场。美国作为全球最大经济体创新高地和消费市场,始终是中企出海战略中的关键目标。从制造业到科技领域,从消费品到金融服务,中国企业的国际化步伐不断加快,既彰显了“中国智造”的全球竞争力,也面临复杂的政策环境、文化差异与市场竞争等挑战。
《跨境蓝海拉美市场洞察 - 墨西哥篇》PDF下载
墨西哥位于北美大陆南部,北邻美国,政局稳定,法律健全,是拉丁美洲地区第一贸易大国和重要的外国直接投资目的地。墨西哥拥有 1.28亿人口,是仅次于巴西的拉美第二大经济体,同时也是拉美第三大线上零售市场,无论是互联网的普及率还是使用率在拉美市场都处于佼佼者。
《东南亚出海合规实操指南手册》PDF下载
近年来,东南亚电商市场以迅猛的增长态势成为全球贸易的新蓝海,印尼马来西亚、新加坡等六国凭借庞大的人口基数、持续提升的互联网渗透率吸引着无数中国卖家前来布局。
《2025中国新能源汽车产业链出海洞察报告 - 匈牙利篇》PDF下载
中国汽车市场新能源汽车渗透率已达50%,各主机厂纷纷开启价格战,让利消费者,并承担相应的利润损失,在中国新能源汽车市场逐渐成为红海的的大背景下,海逐渐成为各主机厂主动或被动的选择。
《2024哥伦比亚电商市场概览报告》PDF下载
哥伦比亚位于南美洲西北部,是拉丁美洲第三大国家,北部是加勒比海,东部与委内瑞拉接壤,东南方是巴西,南方是秘鲁和厄瓜多尔,西部是巴拿马和太平洋。

《2026独立站卖家日历》PDF下载
2026 独立站卖家日历 2026 全年营销节奏
《2025中东北非消费者数字经济报告》PDF下载
2025年的报告不仅持续跟踪数字经济的同比增长,也更深入:我们探讨了新兴技术对下一波数字化转型的影响力,还首次将中东北非国家及地区的消费者行为偏好与全球其他市场进行对比。
《2025年终大促旺季AI消费趋势报告》PDF下载
随着人工智能 AI的爆发式增长,如 ChatGPT、Perplexity 和Llama等交互式聊天机器人正在渐渐成为大众研究和推荐的首选工具。根据 AI智能体功能的更新迭代,目前已经可以完成网购下单、预订服务、及交易支付,现已被统称为 AI智能体电商Agentic Commerce,且其采用率正呈现出滚雪球式的增长。
亿邦动力网
消除一切电商知识鸿沟,每日发布独家重磅新闻。
跨境电商干货集结
跨境电商干货集结,是结合亚马逊跨境电商卖家交流群内大家在交流过程中最常遇到的问题,进行收集整理,汇总解答,将会持续更新大家当前最常遇见的问题。欢迎大家加入跨境电商干货集结卖家交流群一起探讨。
亚马逊公告
AMZ123旗下亚马逊公告发布平台,实时更新亚马逊最新公告,致力打造最及时和有态度的亚马逊公告栏目!
AMZ123跨境电商
专注跨境行业热点事件报道,每日坚持推送原创深度热文
跨境电商赢商荟
跨境电商行业唯一一家一年365天不断更的媒体!
跨境平台资讯
AMZ123旗下跨境电商平台新闻栏目,专注全球跨境电商平台热点事件,为广大卖家提供跨境电商平台最新动态、最热新闻。
AMZ123会员
「AMZ123会员」为出海者推出的一站式私享服务
亚马逊资讯
AMZ123旗下亚马逊资讯发布平台,专注亚马逊全球热点事件,为广大卖家提供亚马逊最新动态、最热新闻。
首页
跨境头条
文章详情
遥遥领先的OpenAI慢下来了
白鲸出海
2024-05-14 22:01
1321

“如果发布的是 GPT-5,那 OpenAI 依然遥遥领先。如果是 AI Search 或者是语音助手,那就说明 OpenAI 没落了。”

一位 AI 大模型从业者告诉虎嗅,业内对 OpenAI 的期待太高,除非是 GPT-5 这样的颠覆式创新,否则很难满足观众的“胃口”。

虽然 Sam Altman 在 OpenAI 线上直播前,已经预告不会发布 GPT-5(或 GPT-4.5),但外界对 OpenAI 的期待早已是九牛拉不转了。

北京时间 5 月 14 日凌晨,OpenAI 公布了最新的 GPT-4o,o 代表 Omnimodel(全能模型)。20 多分钟的演示直播,展示了远超当前所有语音助手的 AI 交互体验,与外媒此前透露的消息基本重合。

虽然 GPT-4o 的演示效果仍可称得上“炸裂”,但业内人士普遍认为很难配得上 Altman 预告中的“魔法”二字。很多人认为,这些功能性的产品,都是“偏离 OpenAI 使命”的。

OpenAI 的 PR 团队似乎也预料到了这种舆论走向。发布会现场以及会后 Altman 发布的博客中对此解释道:

“我们使命的一个关键部分是将非常强大的人工智能工具免费(或以优惠的价格)提供给人们。我非常自豪我们在 ChatGPT 中免费提供了世界上最好的模型,没有广告或类似的东西。 

当我们创办 OpenAI 时,我们最初的想法是我们要创造人工智能并利用它为世界创造各种利益。相反,现在看起来我们将创造人工智能,然后其他人将使用它来创造各种令人惊奇的事物,让我们所有人都受益。”

遥遥领先的 GPT-4o

“如果我们必须等待 5 秒钟才能得到‘每个’回复,用户体验就会一落千丈。即使合成音频本身听起来很真实,它也会破坏沉浸感,让人感觉毫无生气。”

在 OpenAI 发布会前夕,英伟达 Embodied AI 负责人 Jim Fan 在 X 上预测了 OpenAI 会发布的语音助手,并提出:

几乎所有的语音 AI 都会经历三个阶段:

1. 语音识别或“ASR”:音频->文本1,例如 Whisper;

2. 计划下一步要说什么的 LLM:text1 -> text2;

3. 语音合成或“TTS”:text2 ->音频,例如 ElevenLabs 或 VALL-E。

经历 3 个阶段会导致巨大的延迟。

GPT-4o 在响应速度方面,几乎解决了延迟问题。GPT-4o 的响应音频输入的最短时长为 232 毫秒,平均响应时长 320 毫秒,几乎与人类相似。没有使用 GPT-4o 的 ChatGPT 语音对话功能平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒(GPT-4)。

GPT-4o 不仅通过缩短延迟极大地提升了体验,还在 GPT-4 的基础上做了很多升级包括:

1、极佳的多模态交互能力,包括语音、视频,以及屏幕共享。

2、可以实时识别和理解人类的表情,文字,以及数学公式。

3、交互语音感情丰富,可以变换语音语调、风格,还可以模仿,甚至“即兴”唱歌。

4、超低延时,且可以在对话中实时打断 AI,增加信息或开启新话题。

5、所有 ChatGPT 用户均可免费使用(有使用上限)。

6、速度是 GPT-4 Turbo 的 2 倍,API 成本低 50%,速率限制高 5 倍。

“没落”的 OpenAI

“这些局限性的突破都是创新。”

有业内专家认为,GPT-4o 的多模态能力只是“看起来”很好,实际上 OpenAI 并未展示对于视觉多模态来说真正算是“突破”的功能。

这里我们按大模型行业的习惯,对比一下隔壁厂 Anthropic 的 Claude 3。

Claude 3 的技术文档中提到,“虽然 Claude 的图像理解能力是尖端的,但需要注意一些局限性”。

其中包括:

1、人物识别:Claude 不能用于在图像中识别(即姓名)人物,并将拒绝这样做。

2、准确性:Claude 在解释 200 像素以下的低质量、旋转或非常小的图像时,可能会产生幻觉或犯错误。

3、空间推理:克劳德的空间推理能力有限。它可能很难完成需要精确定位或布局的任务,例如读取模拟钟面或描述棋子的确切位置。

4、计数:Claude 可以给出图像中物体的近似计数,但可能并不总是精确准确的,特别是对于大量小物体。

5、AI 生成的图像:Claude 不知道图像是否是人工智能生成的,如果被问到,可能不正确。不要依赖它来检测假图像或合成图像。

6、不适当的内容:Claude 不会处理违反我们可接受使用政策的不适当或露骨的图像。

7、医疗保健应用:虽然 Claude 可以分析一般医学图像,但它不是为解释 CT 或 MRI 等复杂诊断扫描而设计的。Claude 的输出不应被视为专业医疗建议或诊断的替代品。

在 GPT-4o 网站发布的案例中,有一些与“空间推理”有相关的能力,但仍难算得上突破。

此外,从发布会现场演示中 GPT-4o 输出的内容很容易看出,其模型能力与 GPT-4 相差并不大。

GPT-4o 跑分

虽然模型可以在对话中增加语气,甚至即兴演唱,但对话内容还是与 GPT-4 一样缺乏细节和创造力。

此外,发布会后 OpenAI 官网还发布了 GPT-4o 的一系列应用案例探索。包括:照片转漫画风格;会议记录;图片合成;基于图片的 3D 内容生成;手写体、草稿生成;风格化的海报,以及连环画生成;艺术字体生成等。

而这些能力中,照片转漫画风格、会议记录等,也都是一些看起来很普通的文生图或者是AI大模型功能。

能挑战现有的商业模式吗?

“我注册 5 个免费的 ChatGPT 账号,是不是就不需要每月花 20 美元订阅 ChatGPT Plus 呢?”

OpenAI 公布的 GPT-4o 使用政策是 ChatGPT Plus 用户比限制普通用户的流量限制高 5 倍。

GPT-4o 对所有人免费,首先挑战的似乎是 OpenAI 自己的商业模型。

第三方市场分析平台 Sensor Tower 公布的数据显示,过去一个月中,ChatGPT 在全球 App Store 中的下载量为 700 万,订阅收入 1200 万美元;全球 Google Play 市场的下载量为 9000 万,订阅收入 300 万美元。

目前,ChatGPT Plus 在两个应用商店的订阅价格均为 19.99 美元。由订阅数据推断,ChatGPT Plus 过去一个月中,通过应用商店付费的订阅用户数为 75 万。虽然 ChatGPT Plus 还有大量的直接付费用户,但从手机端的收入来看,每年进项才不到 2 亿美元,再翻几倍也很难撑起 OpenAI 近千亿的估值。

由此来看,OpenAI 在个人用户充值方面,其实并不需要考虑太多。

更何况 GPT-4o 主打体验好,如果你跟 AI 聊着聊着就断了,还要换账号重新聊,那你会不会愤然充值呢?

“最初的 ChatGPT 暗示了语言界面的可能性;这个新事物给人的感觉有本质上的不同。它快速、智能、有趣、自然且有帮助。”

Sam Altman 的最新博客中提到了“语言界面的可能性”,这也正是 GPT-4o 接下来可能要做的:挑战所有 GUI(图形交互界面),以及想要在 LUI(语音交互界面)上发力的人。

结合近期外媒透出的 OpenAI 与苹果合作的消息,可以猜测 GPT-4o 可能很快就要对所有 AI PC、AI 手机的厂商“抛橄榄枝”或是“掀桌子”。

不管是哪种语音助手或是 AI 大模型,对于 AIPC、AI 手机来说核心价值都是优化体验,而 GPT-4o 一下把体验优化到了极致。

GPT-4o 很可能会卷到所有已知的 App,甚至是 SaaS 行业。过去一年多时间里,市场上所有已经开发和正在开发的 AI Agent 都会面临威胁。

某位资源聚合类 app 产品经理曾对虎嗅表示,“我的操作流程就是产品的核心,如果操作流程被你 ChatGPT 优化了,那相当于我的 App 没价值了。”

试想,如果订外卖的 App,UI 变成了一句话“给我订餐”,那打开美团还是打开饿了么,对于用户来说就一样了。

厂商的下一步只能是压缩供应链、生态的利润空间,甚至是恶性价格战。

从目前的形式来看,其他厂商要在模型能力上打败 OpenAI 恐怕还需要一段时间。

产品要对标 OpenAI,可能只有通过做更“便宜”的模型了。

对于国内产业的影响

“最近忙死了,没顾上关注他们。”

一位工业 AI 大模型创始人告诉虎嗅,近期一直在忙着沟通战略合作、产品发布、客户交流资本交流,完全没有时间关注 OpenAI 这种发布。

OpenAI 发布前,虎嗅也询问了多位来自各行各业的国内 AI 从业者,他们对 OpenAI 最新发布的预测与看法都很一致:非常期待,但与我无关。

一位从业者表示,从国内目前的进度来看,要在短期内追上 OpenAI 不太现实。所以关心 OpenAI 发布了什么,最多也就是看看最新的技术方向。

目前国内公司在 AI 大模型研发方面,普遍比较关注工程化和垂直模型,这些比较务实、容易变现的方向。

在工程方面,近期蹿红的 Deepseek 就正在国内大模型行业中掀起 Token 的价格战。在垂直模型方面,多位业内人士告诉虎嗅,短期内小模型和垂直模型的研发,基本都不会受到 OpenAI 的裹挟。

“有时候 OpenAI 的技术方向也不是很值得借鉴。”一位模型专家对虎嗅表示,Sora 就是个很好的例子,2024 年 2 月 OpenAI 发布了视频模型 Sora,实现了 60 秒的视频稳定输出。虽然看起来效果很好,但后续的实践几乎没有,落地速度也非常慢。

在 Sora 之前,国内很多在文生视频领域发力的公司和机构已经实现了 15 秒稳定视频生成,而 Sora 出来以后,一些公司的研发、融资、产品节奏都被打乱了,甚至使整个文生视频行业的发展演变成了一场“技术的大跃进”。

所幸,这次 GPT-4o 与 Sora 大有不同。OpenAI CTO Muri Murati 表示,在接下来的几周内,我们将继续我们的迭代部署,为您提供所有功能。

发布会结束不久,GPT-4o 就已经可以上线试用了。

1
咨询
官方微信群
官方客服

扫码添加,立即咨询

加群
官方微信群
官方微信群

扫码添加,拉你进群

更多
订阅号服务号跨境资讯
二维码

为你推送和解读最前沿、最有料的跨境电商资讯

二维码

90% 亚马逊卖家都在关注的微信公众号

二维码

精选今日跨境电商头条资讯

回顶部