OpenAI 发布了 GPT-4o,这是一种速度多模式模型,与最新的 GPT-4 Turbo 版本相比,提高了 2 倍,成本降低了 50%,速度限制提高了 5 倍。
它具有令人印象深刻的多模式能力;与这个模型完美结合,你可能会忘记它是人工智能(就像她一样)。
和许多人一样,我们很高兴看到这些进步,因此我们在三个任务上进行了一项实验,比较 GPT-4o 及其前身:分类、数据提取和语言推理。
我们了解 GPT4o 在所有三项任务上都承担 GPT-4 Turbo,但是:
· 对于复杂的数据提取任务,准确性是关键,这两个模型仍然达不到标准。
· 对于客票分类,GPT4o 与 GPT4-Turbo 相比具有最好的精度。与 Claude 3 Opus 和 GPT-4 相比,它仍然具有最好的精度。
· 在推理方面,GPT-4o在日历计算、时间和角度计算、反义词识别等任务上进行了改进。然而,它在文字处理、模式识别、类比推理和空间推理方面仍然存在困难。
本次分析的主要重点是分析 GPT-4o 相对于最新 GPT-4 Turbo 模型的改进 ( gpt-4-0613)。
我们查看标准基准、社区运行的数据,并进行一系列我们自己的小规模实验。
延迟比较
与预期一样,GPT-4o 的延迟低于 GPT-4 Turbo:

我们收集了10份合约的真实数据,对GPT- 4 Turbo 和 GPT-4 进行测试,以下是我们评估报告的结果:

虽然 GPT-4 Turbo 在许多推理任务中表现出色,但我们之前的评估表明它在处理语言推理问题上表现不佳。据 OpenAI 称,与 GPT-4 Turbo 相比,GPT-4o 在推理任务方面表现不佳出显着改进。
GPT-4o真的更好吗?
为了看看新模型是否更好,我们选择了一组 16 个言语推理问题作为测试的基石。
这是一个谜语示例及其来源:
言语推理问题:
- 选择最能完成这一类比的词:羽毛之于鸟,正如鳞片之于_______。
A) 爬行动物
B) 狗
C) 鱼
D) 植物答案: 爬行动物
下面是我们在Vellum提示环境中运行的初始测试的屏幕截图:

现在,让我们对所有 16 个推理问题进行评估。
在下例中,您可以看到GPT-4o表现出了比其前身更好的推理能力,达到了69%的准确率,而GPT-4 Turbo的准确率达到了50%。

从我们给模型提供的示例中,我们可以看到 GPT-4o 在以下推理任务中变得更好:
· 日历计算:准确识别特定日期重复的时间。
· 时间和角度计算:精确计算时钟上的角度。
· 词汇(反义词识别):有效识别反义词并理解词义。
而且,它仍然难以完成以下推理任务:
· 操作单词:字母更改后难以识别和生成有意义的单词。
· 模式识别:难以识别和应用复杂的重排模式。
· 类比推理:准确理解并匹配类比的问题。
· 空间推理:可视化空间运动和计算距离的问题。
· 结论:
· 数据提取: GPT-4o 显示出比 GPT-4 Turbo 更好的性能,但在复杂任务的精度方面仍然存在不足。
· 分类: GPT-4o 具有最高的精度,使其成为避免误报的最佳选择。GPT-4 Turbo 表现出较低的精度。
· 言语推理: GPT-4o 在某些推理任务上有了显着的改进,但严重需要改进的地方。GPT-4 Turbo 在这些任务中表现得更加纠结。
· 延迟: GPT-4o 的延迟较低,与 GPT-4 Turbo 相比,响应时间更快。
· 吞吐量: GPT-4o 生成令牌的速度要快,吞吐量为每秒 109 ,而 GPT-4 Turbo 的吞吐量为每秒 20 。