亚洲色图 美腿丝袜 实测OpenAI最强模子o1:会作念大学数理化 但弱智吧依然浩荡
亚洲色图 美腿丝袜
发布之后,各路大神和网友都纷纷用各式问题测试OpenAI o1的阐述:
还有东谈主进行了技俩锻真金不怕火,后果被o1宏大的推理才调秀到了。
Q:你的修起中有几个字?
A1:这句话有七个字
A2:一共五个字
量子位也进行了一番实测,底下就一皆来了解。
推理才调猛进化,但照旧难敌弱智吧
该说不说,o1天然在推理才调上获取了很大超越,但濒临充满神思的弱智吧问题,照旧掉进了东谈主类挖的罗网。
天然了,对于肃肃问题,o1的阐述照旧很强的,率先望望逻辑推理才调。
想考这谈题时,preview和mini辩认用时21秒和14秒,不外从文本上看mini想考得反而更多。
其中还出现了一些西里尔字母乱入,不外对举座影响不大。
最终,二者也都给出了正确的谜底——丙。
值得谛视的是,mini(右)的解答当中还出现了修正的进程。
接下来看下o1在大学数理化题目上的阐述。
率先是这谈考研数学真题,触及的学问点黑白面积分、高斯定理等内容:
照旧辩认看下preview和mini的想考,不错看到mini的想考进程大致是preview的节略版,天然速率也快了不少。
不外preview给的想考进程当中再次出现乱入,此次是泰语。
本色解答进程亦然preview比mini愈加详备,不外不知谈为什么preview用了英文回答。
临了的计较后果化简神色也有所不同,但数值上是至极的,而且也作念对了。
对比4o这边,先偷懒后舞弊(调用了代码解释器),后果临了谜底照旧错的。
第二谈数学题对于概率。
这谈题preview依然是用英语进行了作答,设施比mini愈加详备,天然都是对的。
而4o的谜底前边的进程倒是基本都对,然则临了一步的求解出现了问题,只给出了1这一个解,况兼不是本题谜底。
物理方面,这里采选了一谈大学物理中的光学题:
preview(左)和mini都给出了正确解答,内容也基本一致。
化学的题目是一谈弃世题,主要触及电化学等内容。
这里把AgCl/Ag的标准电极电势手脚已知条目一同输入给模子。
Preview(左)和mini大约的解题想路照旧差未几,在计较设施上有指对运算先后的离别,天然临了的后果照旧对的。
临了一项测试就不再作念教练题了,而是望望模子编写代码的才调若何。
这里采选的题目难度相称高,真东谈主的通过率唯一14%。
以下是preview(左)和mini的解题想路:
从代码上看,两者中枢逻辑一样,但在具体操作上略有区别。
两套代码均通过了测试,内存浮滥也比拟接近,而mini给出的代码启动本领更短(38毫秒)。
o1的编程才调除了用来解题,也不错快速构建出实用的应用门径。
著名AI配音用具ElevenLabs盘算部门崇敬东谈主Ammaar Reshi,就诈欺o1搭配Cursor Composer,用了不到10分钟的本领制作了一款iOS天气应用。
极少比拟照旧不会?
测试发现,对于大模子难以答对的名场合——极少比大小,preview(左)和mini都答分歧。
致使preview在想考进程中明明还是提到过9.8比9.11大。
但同期preview在想考进程中暗示,9.8和9.11有可能指的是日历,是以作念分歧也许另一原因。
针对这个问题,大神谢赛宁也晒出了他的测试后果,发现o1在想考进程中将9.8当成了重力常数,而9.11是一个“兴味不解的数字”。
是以o1可能不是不会,而是把这个问题想复杂了。
为了进一步沟通,咱们把问题改得具体些,强调一下9.8和9.11都是数字,这下莫得了歧义之后就能一次作念对了。
不错看出,领导词的影响照旧不小的。
由于o1在里面领受了一些类想维链进程,因此prompt的盘算和浮浅版块也有所区别,OpenAI官方发布了一则领导:
领导词应简便且获胜
幸免在领导词中使用想维链
使用分隔符让promot更明晰
鸿沟RAG内容的长度
回到咱们的测试,濒临其他几个大模子溃逃名场合,o1也有不小的超越。
比如在数字母的任务上就有所进化,即使是一串乱打的字母也能数对。
还有濒临经典的“回转漫骂”(即知谈A是B却不知谈B是A)问题,也终于一次性答对了Mary Lee Pfeiffer(汤姆·克鲁斯的母亲)的女儿是谁。
One More Thing
对于此次发布的o1,除了各个方面的收货除外,还有一些其他的发现。
比如前特斯拉自动驾驶崇敬东谈主、两度参加OpenAI又两度下野的大神Andrej Karpathy发现,o1-mini在被要求阐发黎曼揣测的时候出现了拒却回答的情况,暗示大模子“犯懒”依然是一个大问题。
还有网友说以为mini的阐述比preview好,想问下有莫得东谈主知谈原因或者有啥宗旨。
这条音问也把奥特曼眩惑了过来,修起了一句“Yes I have one”。
把柄OpenAI里面职工Kevin Lu发布的一则推文来看,mini的性价比照实比preview更高。
把柄这张图败露,preview版块论性能比不上尚未公布的满血o1,论经济性又比不上mini。
趁便提一句,preview版块存在音问数目休止,况兼数目是按周进行重置的,几轮测试下来还是将近用尽了。
参考开采:
[1]https://x.com/rowancheung/status/1834300353619075494
[2]https://x.com/karpathy/status/1834374965942255835
[3]https://x.com/sama/status/1834381401380294685
忘忧草社区在线播放[4]https://x.com/_kevinlu/status/1834278160038592633亚洲色图 美腿丝袜