谁是最强编程大模型？从六大方向横向对比o1-preview、o1-mini、ChatGPT4o、Claude3.5 Sonnet

我们分别从六大方面对比了o1-mini、o1-preview 、ChatGPT4o和Claude3.5 Sonnet。代码能力，o1-mini > o1-preview > Claude3.5 Sonnet > ChatGPT4o代码优化能力，o1-mini > o1-preview >Claude3.5 Sonnet = ChatGPT4o解读代码能力，o1-mini > o1-preview

哪吒

26209人浏览 · 2024-09-14 08:05:53

哪吒 · 2024-09-14 08:05:53 发布

在这里插入图片描述

OpenAI放大招！全新推理模型o1系列来了，解题能力堪比博士生！

就在5分钟前，OpenAI发布了全新的 AI 模型系列——OpenAI o1，主打推理能力，号称能解决比以往模型更难的科学、编程和数学问题！

先别急着激动，这次只是预览版！ OpenAI 表示，o1 系列模型还将进行定期更新和改进，后续还会加入更多功能，例如网页浏览、文件和图像上传等。

网页浏览难道是参考Claude那种？我们拭目以待。

那么，o1 系列模型到底有多牛呢？

推理能力大幅提升： OpenAI 表示，o1 模型在物理、化学和生物等学科的 challenging 基准测试中，表现与博士生相当

数学和编程能力爆表：在一项国际数学奥林匹克竞赛（IMO）的资格考试中，GPT-4o 的正确率只有 13%，而 o1 模型的正确率高达 83%！在 Codeforces 编程竞赛中，o1 模型的成绩也达到了前 89%！

o1 系列模型的工作原理：

更像人类一样思考： o1 系列模型经过训练，能够花更多时间思考问题，尝试不同的策略，并识别自己的错误，就像人类一样！

o1 系列模型的安全性：

全新安全训练方法： OpenAI 开发了一种新的安全训练方法，利用 o1 模型的推理能力，让它们更好地遵守安全和对齐准则

更强的“越狱”抵抗力： OpenAI 用“越狱”测试来衡量模型的安全性，结果显示 o1 模型比 GPT-4o 更不容易被“越狱”

o1 系列模型的两个版本：

o1-preview：预览版模型，功能相对较少，但推理能力强大

o1-mini：更小、更快的推理模型，特别擅长编程，成本也更低

如何使用 OpenAI o1？

ChatGPT Plus 和 Team 用户：现在就可以在 ChatGPT 中使用 o1-preview 和 o1-mini 模型

ChatGPT Enterprise 和 Edu 用户：下周开始可以使用这两个模型

API 用户：符合条件的开发者现在就可以在 API 中使用这两个模型，但功能有限，例如不支持函数调用、流式传输、系统消息等

ChatGPT Free 用户： OpenAI 计划在未来向所有 ChatGPT Free 用户开放 o1-mini 模型

在这里，直接用 OpenAI o1

谷歌浏览器访问：https://www.nezhasoft.cn

👉 GPT功能：

GPT-4o知识问答：支持1000+token上下文记忆功能
最强代码大模型Code Copilot：代码自动补全、代码优化建议、代码重构等
DALL-E AI绘画：AI绘画 + 剪辑 = 自媒体新时代
私信哪吒，直接使用GPT-4o

下面，我们分六项（代码能力、代码优化能力、解读代码能力、测试用例及说明能力、转码能力、添加注释能力）横线对比一下ChatGPT4o、Claude3.5 Sonnet、o1-preview、o1-mini，看看孰强孰弱。

都是代码AI实测，文章较长，想直接看结论的，可以直接跳到文末~

round 1：代码能力

Prompt：请根据上面描述，给出解题思路，通过Java代码解答此题，关键代码添加注释，并根据示例中的输入输出进行代码测试，代码如果有错误，请重新修改代码

ChatGPT4o

ChatGPT4o给出了解题思路、Java代码、代码解释、测试用例。

Claude3.5 Sonnet

Claude给出了解题思路、Java代码、代码解释、测试用例、时间复杂度。

o1-preview

o1-preview给出了解题思路、Java代码、代码解释、测试用例、测试说明、注意事项、总结。

o1-mini给出了解题思路、Java代码、代码说明、4个测试用例总结。

验证代码正确率，我们将四个大模型生成的代码Copy到Idea中，通过测试用例测试一下。

测试通过，通过率100%。

代码review：

如下图所示，左侧为ChatGPT4o，右侧为Claude3.5 Sonnet。

肉眼可见，o1-preview代码共86行，o1-mini代码共92行，ChatGPT4o代码共74行，Claude共54行，相差20行。Claude3.5 Sonnet明显更加简洁。

o1-mini号称拥有更强的编程能力，仔细一看，发现o1-mini新增了很多输入输出校验，增强了代码的健壮性。

代码能力小结：

ChatGPT4o给出了解题思路、Java代码、代码解释、测试用例。

Claude3.5 Sonnet给出了解题思路、Java代码、代码解释、测试用例，还给出了算法的时间复杂度。

o1-preview给出了解题思路、Java代码、代码解释、测试用例、测试说明、注意事项、总结。

o1-mini给出了解题思路、Java代码、代码说明、4个测试用例总结。

通过review代码，Claude3.5 Sonnet明显更加简洁、o1-mini更加缜密。

代码能力，o1-mini >o1-preview > > Claude3.5 Sonnet > ChatGPT4o

round 2：代码优化

PS：我们将“通过回溯算法解答猴子吃桃的代码”发给它们，让它们对代码进行优化。

ChatGPT4o

ChatGPT4o指出了代码存在4个问题：

效率低，递归回溯，时间复杂度为 O(N)
递归深度限制，可能会导致 StackOverflowError
不必要的排序
全局变量使用，不符合编码规范

ChatGPT4o给出了优化后的代码、关键点、下一步改进建议。

Claude3.5 Sonnet

Claude指出了代码存在4个问题：

效率低，递归回溯，时间复杂度为 O(N)
不必要的排序
全局变量使用，不符合编码规范
代码没有处理输入异常的情况

Claude给出了优化建议、优化后的代码、优化说明、小总结。

o1-preview

o1-preview指出了代码存在4个问题：

效率低下
缺少输入校验
不必要的排序操作
全局变量的使用

o1-preview给出了优化建议、优化后的代码、代码说明、测试示例、优化效果、总结。

o1-mini

o1-mini指出了代码存在6个问题：

递归深度过大
效率低下
不必要的排序
缺乏输入验证
静态变量的使用
错误的测试用例预期

o1-mini给出了优化建议、优化后的代码、代码说明、4个测试示例、总结。

代码优化小结：

ChatGPT4o、Claude、o1-preview都指出了4项问题，但o1-mini指出了6个问题。

给出了给出了优化建议、优化后的代码、代码说明、测试示例、优化效果、总结。

代码优化能力，o1-mini > o1-preview > Claude3.5 Sonnet = ChatGPT4o

round 3：解读代码

Prompt：请给出代码的解题思路

ChatGPT4o

ChatGPT4o给出了具体的解题思路、优化后的代码、代码解析、建议的下一步改进

Claude3.5 Sonnet

Claude3.5 Sonnet给出了优化后代码的解题思路：

问题分析
输入处理
初始验证
二分查找最小速度
验证函数
返回结果
分析代码优势

Claude3.5并没有再次输出代码，其实这一点是好评的，因为上面已经输出过了，完全没必要再次输出。

o1-preview

o1-preview给出了具体步骤、整体思想、代码解释、示例运行、可能的问题和优化、优化后的解法思路、总结。

o1-mini

o1-mini给出了问题分析、代码解读、主要步骤解析、存在的问题、优化建议、优化后的解题思路、优化后的示例代码、优化后的代码说明、5个示例测试、总结。

解读代码小结：

ChatGPT4o看似给的东西比较多，Claude3.5只是返回了解题思路。

o1-mini给的东西更多，牛逼plus，真顶。

解读代码能力，o1-mini > o1-preview >> Claude3.5 Sonnet > ChatGPT4o

round 4：测试用例及说明

Prompt：给出3个测试用例和说明

ChatGPT4o

ChatGPT4o给出了三个测试用例，涵盖了不同的场景、完整代码及测试用例、测试用例结果

Claude3.5 Sonnet

Claude3.5 Sonnet给出了3个测试用例,并对每个用例进行详细说明。

这些测试用例涵盖了几种不同的情况:

正常情况,需要计算的最小速度
需要较高速度才能完成的情况
无法完成任务的情况(时间不足)

o1-preview

o1-preview给出了4个测试用例和总结。

**o1-mini **

o1-mini 直接给出了5个测试用例和说明，还给出了小总结。

正常情况
边界情况
无效输入

测试用例及说明能力小结：

ChatGPT4o给出的东西很多，又输出一遍完整代码，但是回答内容有些重复。

Claude3.5 Sonnet给出了3个测试用例,并对每个用例进行详细说明，还指出了3个测试用例覆盖了3种不同的情况。

o1-preview给出了4个测试用例和总结。

o1-mini 直接给出了5个测试用例和说明，还给出了小总结。

测试用例及说明能力，o1-mini > o1-preview > Claude3.5 Sonnet > ChatGPT4o

round 5：Java转Python

Prompt：将代码转为Python语言

ChatGPT4o

ChatGPT4o给出了Python代码、关键代码解析、测试用例

Claude3.5 Sonnet

Claude3.5给出了Python代码、解题思路、时间复杂度

o1-preview

o1-preview给出了Python代码实现、代码说明、测试示例、注意事项、运行方法

o1-mini

o1-mini给出了解题思路、主要步骤、Python代码实现、代码说明、代码优化点、5个测试示例、结论

转码能力小结：

ChatGPT4o和Claude3.5都给出了Python代码、解题思路、测试用例，测试后，通过率100%。

o1-preview给出了Python代码实现、代码说明、测试示例、注意事项、运行方法。

o1-mini给出了解题思路、主要步骤、Python代码实现、代码说明、代码优化点、5个测试示例、结论。

转码能力，o1-mini > o1-preview > Claude3.5 Sonnet = ChatGPT4o

round 6：添加注释

ChatGPT4o

Claude3.5 Sonnet

ChatGPT4o和Claude3.5都为Python代码添加了详细的代码注释，能力堪称顶级。

o1-preview和o1-mini给出的代码自带详细的代码注释，不用添加了…

添加注释能力，o1-mini > o1-preview > Claude3.5 Sonnet = ChatGPT4o

总结

我们分别从六大方面对比了o1-mini、o1-preview 、ChatGPT4o和Claude3.5 Sonnet。

代码能力，o1-mini > o1-preview > Claude3.5 Sonnet > ChatGPT4o
代码优化能力，o1-mini > o1-preview > Claude3.5 Sonnet = ChatGPT4o
解读代码能力，o1-mini > o1-preview >> Claude3.5 Sonnet > ChatGPT4o
测试用例及说明能力，o1-mini > o1-preview > Claude3.5 Sonnet > ChatGPT4o
转码能力，o1-mini > o1-preview > Claude3.5 Sonnet = ChatGPT4o
添加注释能力，o1-mini > o1-preview > Claude3.5 Sonnet = ChatGPT4o

就今天的测试而言，我们不难看出，在编程方面，o1-mini性能提升明显。

编程能力：

o1-mini > o1-preview > Claude3.5 Sonnet > ChatGPT4o

👉 GPT功能：

GPT-4o知识问答：支持1000+token上下文记忆功能
最强代码大模型Code Copilot：代码自动补全、代码优化建议、代码重构等
DALL-E AI绘画：AI绘画 + 剪辑 = 自媒体新时代
私信哪吒，直接使用GPT-4o

智灵弹性算力系统

为开发者提供按需使用的算力基础设施。

更多推荐

Python中超好用的split()函数，详解

智灵弹性算力系统

Python——sklearn库的安装

Python——sklearn库的安装做个笔记，时间久了，都忘了sklearn库的标准名字——scikit-learn。所以，不要用pip install sklearn应该是pip install scikit-learn真被自己蠢哭了。说明：有的低版本的sklearn库没有"accuracy"，版本问题，更新一下包就可以哈。...