您的位置:主页 > 公告动态 > 投资资讯 > 投资资讯

9.11和9.9哪个大,大模子险些全翻车了-国际期货

没眼看……“9.11和9.9哪个大”这样简朴的问题,居然把主流大模子都难倒了??

强如GPT-4o,都坚定地以为9.11更大。

谷歌Gemini Advanced付费版,同样的口径。

新王Claude 3.5 Sonnet,还一本正经的给出离谱的盘算方式。

9.11 = 9 1/10 1/1009.9 = 9 9/10

到这一步照样对的,但下一步突然就不讲原理了

如上所示,9.11比9.90大0.01。你想让我进一步详细注释小数的对照吗?

这你还注释啥啊注释,简直要嫌疑是全天下AI团结起来诱骗人类了。

艾伦AI研究所成员林禹臣换了个数字测试,GPT-4o依旧翻车,他示意:

一方面AI越来越善于做数学奥赛题,但另一方面知识依旧很难

也有网友发现了华点,若是是说软件版本号,那么9.11版本确实比9.9版本更大(更新)。

而AI都是软件工程师开发的,以是……

那么,事实是怎么回事?

先进大模子整体翻车‍‍‍‍‍‍‍

一醒悟来,一众响当当的大模子最先以为“9.11>9.9”了?

发现这个问题的是Riley Goodside,有史以来*个全职提醒词工程师

简朴先容下,他现在是硅谷独角兽Scale AI的高级提醒工程师,也是大模子提醒应用方面的专家。

最近他在使用GPT-4o时有时发现,当提问:

9.11 and 9.9——which is bigger?

GPT-4o竟绝不犹豫回覆前者更大。

面临这一知识性“错误”,他不死心地又去问了其他大模子,效果险些三军尽没。

好家伙,身为一名提醒工程师,他敏锐意识到可能是“打开方式有误”。

于是他又换了个问法,将提问限制在“实数”,效果照样翻车了。

不外,有网友试着给提问换了个顺序,没想到这下AI竟反映过来了。

看到AI对词序云云“敏感”,该网友进一步推测:

先问哪个更大,AI会沿着明确路径最先对照数字。但若是只是随便说说数字,没有明确目的,AI可能会最先“妙想天开”。

看到这里,其他网友也纷纷拿相同提醒试了一把,效果翻车的不在少数。

面临这一个诡异的问题,国产大模子显示若何呢?‍‍‍

我们简朴测试一番,问题也换成中文提问,效果翻车率也对照高,选取几个有代表性的展示:

Kimi也是不加注释就直接给失足误结论。

智谱清言APP上的ChatGLM,自动触发了联网查询,然后形貌了自己的对照方式,惋惜却执行错了。

不外也有显示不错的,腾讯元宝先复述了一遍选项,然后直接做对。‍‍‍‍

农村娃董宇辉和余承东,为何成为商界「顶流」?

字节豆包是少数能把对照方式形貌清晰,而且用对的。甚至还联系现实举例来验证。

对照惋惜的是文心一言,面临这个问题,也是触发了联网查询。

原本都已经做对了,但突然话锋一转又导向了错误结论。

不外从文心一言的思绪注释上,也可以看出背后问题所在。

由于大模子以token的方式来明白文字,当9.11被拆成“9”、“小数点”和“11”三部门时,11确实比9大。

由于OpenAI使用的Tokenizer开源,可以用来考察大模子是若何明白这个问题。

上图可以看出,9和小数点划分被分配为“24”和“13”,小数点后的9同样也是“24”,而11被分配到“994”

以是使用这种tokenizer方式的大模子会以为9.11更大,实在是以为11大于9

也有网友指出,像是书籍目录里第9.11节也比第9.9节大,以是最终可能照样训练数据里见这种见得多了,而手把手教基础算数的数据很少。

也就是问题自己对人类来说,一看就知道问的是算数问题,但对AI来说是一个模糊的问题,并不清晰这两个数字代表什么。

只要向AI注释明了这是一个双精度浮点数,就可以做对了。

在有分外条件的情形下,tokenizer这一步依然会给11分配更大的token。然则在后续自注重力机制的作用下,AI就会明了要把9.11连起来处置了。

厥后Goodside也弥补,并不是说大模子无论若何都认定了这个错误结论。而是当以特定方式提问时,许多*模子都市告诉你9.11>9.9,这很新鲜。

经由频频实验后他发现,想让AI上这个当,需要把选项放在提问前面,若是换取顺序就不会失足。

然则只要选项在问题前面,改变提问的方式,如加标点、换词汇都不会有影响。

虽然问题很简朴,错误很基础。

但领会失足原理之后,许多人都把这个问题当成了磨练提醒词技巧的试金石,也就是:用什么提问方式能指导大模子的注重力机制准确明白问题呢?

首先,赫赫著名的Zero-shot CoT头脑链,也就是“一步一步地想”,是可以做对的。

不外角色饰演提醒,在这里作用就有限了。

恰好最近也有微软和OpenAI都介入的一项研究,剖析了1500多份论文后发现,随着大模子手艺的提高,角色饰演提醒不像一最先那样有用了……

详细来说,统一个问题提醒“你是一个天才……”比“你是一个傻瓜……”的准确率还低。

也是让人啼笑皆非了。

One More Thing

与此同时,路透社的更新了。

更新内容为:另一位线人讲述,OpenAI已经在内部测试了新模子,在MATH数据集上得分跨越90%。路透社无法确定这是否与“草莓”是统一个项目。

MATH数据集包罗竞赛级其余数学题,现在不用多次采样平分外方式,最高分是谷歌Gemini 1.5 Pro数学强化版的80.6%。

然则OpenAI新模子在没有分外提醒情形下,能不能自主解决“9.11和9.9哪个大?”。

突然没信心了,照样等能试玩了再看效果吧……

参考链接:

[1]

[2]

[3]

[4]