百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实

itomcoil 2025-08-31 00:01 3 浏览

号称“OpenAI迄今为止最强模型”,o3/o4-mini真实能力究竟如何?

就在发布后的几小时内,网友们的第一波实测已新鲜出炉。

最强推理模型o3,即使遇上首位全职提示词工程师Riley Goodside的“刻意刁难”,也顺利过关:

可以看到,面对藏在一堆玩具里的手绘图表,它也能通过图像识别和推理能力正确解答。

o4-mini作为一款专为快速、经济高效的推理而优化的小模型,在数学能力方面堪称强悍——

用时2分55秒,解决了最新的欧拉问题,并且该网友强调:

至今只有15个人能够在30分钟内解决它。

与此同时,OpenAI内部技术人员也表示,o3的出现让他第一次萌生了将模型称为通用人工智能(AGI)的念头。

眼见气氛都烘托到这儿了,那我们还不得赶紧看看更多实测效果(doge)。

网友实测o3/o4-mini

首次带图深度思考

首先,官方提到,o3和o4-mini是OpenAI首次能将上传图像集成到思维链中的模型——

这意味着,它们可以基于图像展开思考

比如有人随手上传一张照片,让o3来判断拍摄时间和地点,而且要求能具体到地图上的某一个点。

结果令这位小哥惊讶的是,其答案和实际情况之间的误差非常小:

地点仅相差1000英尺(约305米),时间仅相差2分钟。

更有意思的是,假如一张图上的小字看不清,通过扒思维链还能发现——o3甚至会自己“偷偷放大”。

难怪在针对复杂多模态谜题的EnigmaEva测试基准中,o3能拿下SOTA。

不过值得注意的是,据自称OpenAI员工的网友爆料,虽然基准测试结果存在差异,但o4-mini实际上是比o3更好的视觉模型。

该网友甚至直接建议大家:

在任何涉及视觉的任务中使用o4-mini-high而不是o3。

巧合的是,在大多需要计算复杂数学题的带图测试中,大家竟默契选择了o4-mini而非o3。

除了一开头提到的解答欧拉问题的例子,o4-mini也被用来解读技术图纸。

该网友表示,对于这种大多AI都很难搞定的难题,它一次就成功了:

o4 mini(high)能够分析该部件的尺寸并准确计算出正确体积。

编程能力

其次,两个新模型这次在编程能力上都有一定程度升级,测试结果表明:

其中o3 High取代谷歌Gemini-2.5,拿下编程第一。

顺带OpenAI这次还开源了一个本地代码智能体Codex CLI——

它是一种聊天驱动的开发方式 ,能够理解并执行本地代码库,兼容所有OpenAI模型,包括刚刚发布的o3、o4-mini和GPT-4.1。

宾大沃顿商学院教授Ethan Mollick,这次直接利用o3的推理+编程能力制作了一个小短片:

从完整制作过程来看,这里还同步考察了o3调用各项工具的能力

第一步:理解需求;

第二步:使用编程库生成帧,并将这些帧组合成一个视频文件;

第三步:使用Python的PIL库(Pillow)来处理图像,使用imageio库来创建视频文件;

第四步:生成帧;

……

最后我们也简单实测了一把,重点考察一下o3和o4-mini的推理能力。

比如让它们分别帮忙看看“手相”,o3的结果如下:

o4-mini:

可以看到,两个模型对人物性格特征的判断大致相似,不过o3还额外给了一些提示建议。

p.s. 原图为AI生成,大家感兴趣可以自己试试~

One More Thing

有趣的是,有网友在实测o3的过程中还发现了一个现象:

o系列模型比GPT系列模型更容易错误地声称使用了代码工具

为此他们还专门写了一篇博客,其中揭露了:o3经常编造其为满足用户请求而采取的行动,并在用户质疑时详细地为这些编造进行辩解。

就像下面这样,模型声称它在笔记本电脑上运行了实际并不存在的代码。

而且通过进一步研究发现,这些伪造行为包括下面这些:

1、错误地声称执行代码,声称“我本地运行了这个”或“运行它产生了”后面跟着特定输出,而模型没有能力执行Python或其他编程语言;

2、编造详细的计算结果,包括特定的数值、统计数据和加密哈希值,表现为它们是实际执行输出而不是估计或示例;

3、……

同时,他们也初步提出了造成这一现象的可能原因:

首先就是模型幻觉和奖励黑客攻击,他们表示这些问题在o系列模型中尤为普遍。

另外,使用基于结果的强化学习可能会导致模型盲目猜测,并且某些行为(如模拟代码工具)可能会在某些任务上提高准确性,但在其他任务上造成混淆。

最后就是,o系列模型在处理连续对话时有一个限制,它们无法访问之前的推理过程,这可能导致模型在回答问题时出现不准确或不一致的情况。

顺便一提,即日起,ChatGPT的Plus、Pro会员以及Team用户,都能直接体验o3、o4-mini和o4-mini-high,而原本的o1、o3-mini和o3-mini-high则已悄然下架。

你怎么看OpenAI这次发布的o3和o4-mini?

参考链接:

[1]https://x.com/goodside/status/1912604138518851990

[2]https://x.com/johnohallman/status/1912608446274498747

[3]https://x.com/bio_bootloader/status/1912566454823870801

[4]https://x.com/TransluceAI/status/1912552046269771985

本文来自微信公众号“量子位”,作者:关注前沿科技,36氪经授权发布。

相关推荐

mysql中缓存开启和失效场景cache_mysql缓存机制有几种

--1.当前数据库是否支持缓存数据SHOWVARIABLESLIKE'have_query_cache';--2.当前数据库缓存数据库开关是否开启OFF/0未开启YES/...

MySQL常见错误及解决方法_mysql错误大全

MySQL是最常用的关系型数据库之一,在使用过程中也会遇到很多报错,本文列举了一些常见的错误及解决方法。1.Can'tconnecttoMySQLserver原因:MySQL服务未启...

牛哇!MySQL中的日志“binlog”的三种格式这么好玩

MySQL中的日志比较重要的有binlog(归档日志)、redolog(重做日志)以及undolog,那么跟我们本文相关的主要是binlog,另外两个日志松哥将来有空了再和大家详细介绍。1...

让我们在音乐中藏点儿东西吧_让我们在音乐的世界里

1不仅仅是音轨前阵子,新的Doom游戏中的一段音轨被人发现里面有隐藏的五角星图片以及“666”的字样,这不禁让我有了想尝试一下的想法。其实很早之前就知道可以通过多种方式将图片转换成声音,但是自己从...

《Python实现PPT转图片:高效批处理的技术路径》

Python处理PPT转图片的核心方案集中于两类库:基于COM接口的win32com.client,适用于Windows环境,通过调用PowerPoint程序API实现幻灯片逐页导出,支持指定分辨率...

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实

号称“OpenAI迄今为止最强模型”,o3/o4-mini真实能力究竟如何?就在发布后的几小时内,网友们的第一波实测已新鲜出炉。最强推理模型o3,即使遇上首位全职提示词工程师RileyGoodsid...

如何用Python快速切割图片?_python把图片切割成固定大小的子图

安装一个叫做PIL的Python图像处理库,它可以让我们读取、裁剪和保存图片。准备一张要分割的图片,并把它放在一个文件夹里。比如这里有一张很长的漫画图片,命名为2023-07-29_100430.pn...

bmp转jpg脚本_bmp转化为jpg批量

我们在使用示波器时,经常会需要将波形通过U盘导出,一般这种导出的波形的都是bmp格式的,很多时候bmp格式的图片不方便使用,需要转换为jpg或png格式的。波形保存到U盘后,可以...

python模块安装问题汇总及解决办法

问题:pipinstallplaysound出错解决办法:pipinstallplaysound==1.2.2问题:pipinstall某个模块失败解决办法:可以去用这个模块的whl文...

Python处理图像_python怎么图像处理

入门知识颜色。如果你有使用颜料画画的经历,那么一定知道混合红、黄、蓝三种颜料可以得到其他的颜色,事实上这三种颜色就是美术中的三原色,它们是不能再分解的基本颜色。在计算机中,我们可以将红、绿、蓝三种色光...

python如何给图片添加文字水印?_python如何给图片添加文字水印

方法:方法简单粗暴,打开图片然后在合适的位置绘制文字,最后保存。python可以使用PIL库来操作图片,不过据说PIL不支持python3,使用pillow作为替代。安装pillow:pipins...

游戏外挂,用Python输过谁?_python写游戏辅助脚本教程

玩过电脑游戏的同学对于外挂肯定不陌生,但是你在用外挂的时候有没有想过如何做一个外挂呢?我打开了4399小游戏网,点开了一个不知名的游戏,唔,做寿司的,有材料在一边,客人过来后说出他们的要求,你按照菜单...

如何使用python裁剪图片?_python图片截取

如何使用python裁剪图片如上图所示,这是一张包含了各类象棋棋子的图片。我们需要将其中每一个棋子都裁剪出来,此时可以利用python的PIL库实现。一、安装PIL库如果此前没有安装过PIL库,...

Python图像处理神器!Pillow库从入门到精通,这教程太全了

Pillow是Python中一个强大的图像处理库,是PIL(PythonImagingLibrary)的分支和升级版本。本教程将介绍Pillow的基本用法和常见操作。##安装Pillow```p...

Python自动化办公应用学习笔记37—文件读写方法1

一、文件读写方法1.读取内容:read(size):读取指定大小的数据,如果不指定size,则读取整个文件。data=file.read(100)#读取前100字节readline():读取一...