您的位置:主页 > 公告动态 > 投资资讯 > 投资资讯
9.11和9.9哪个大,大模子险些全翻车了-国际期货
没眼看……“9.11和9.9哪个大”这样简朴的问题,居然把主流大模子都难倒了??
强如GPT-4o,都坚定地以为9.11更大。
谷歌Gemini Advanced付费版,同样的口径。
新王Claude 3.5 Sonnet,还一本正经的给出离谱的盘算方式。
9.11 = 9 1/10 1/1009.9 = 9 9/10
到这一步照样对的,但下一步突然就不讲原理了
如上所示,9.11比9.90大0.01。你想让我进一步详细注释小数的对照吗?
这你还注释啥啊注释,简直要嫌疑是全天下AI团结起来诱骗人类了。
艾伦AI研究所成员林禹臣换了个数字测试,GPT-4o依旧翻车,他示意:
一方面AI越来越善于做数学奥赛题,但另一方面知识依旧很难。
也有网友发现了华点,若是是说软件版本号,那么9.11版本确实比9.9版本更大(更新)。
而AI都是软件工程师开发的,以是……
那么,事实是怎么回事?
先进大模子整体翻车
一醒悟来,一众响当当的大模子最先以为“9.11>9.9”了?
发现这个问题的是Riley Goodside,有史以来*个全职提醒词工程师。
简朴先容下,他现在是硅谷独角兽Scale AI的高级提醒工程师,也是大模子提醒应用方面的专家。
最近他在使用GPT-4o时有时发现,当提问:
9.11 and 9.9——which is bigger?
GPT-4o竟绝不犹豫回覆前者更大。
面临这一知识性“错误”,他不死心地又去问了其他大模子,效果险些三军尽没。
好家伙,身为一名提醒工程师,他敏锐意识到可能是“打开方式有误”。
于是他又换了个问法,将提问限制在“实数”,效果照样翻车了。
不外,有网友试着给提问换了个顺序,没想到这下AI竟反映过来了。
看到AI对词序云云“敏感”,该网友进一步推测:
先问哪个更大,AI会沿着明确路径最先对照数字。但若是只是随便说说数字,没有明确目的,AI可能会最先“妙想天开”。
看到这里,其他网友也纷纷拿相同提醒试了一把,效果翻车的不在少数。
面临这一个诡异的问题,国产大模子显示若何呢?
我们简朴测试一番,问题也换成中文提问,效果翻车率也对照高,选取几个有代表性的展示:
Kimi也是不加注释就直接给失足误结论。
智谱清言APP上的ChatGLM,自动触发了联网查询,然后形貌了自己的对照方式,惋惜却执行错了。
不外也有显示不错的,腾讯元宝先复述了一遍选项,然后直接做对。
农村娃董宇辉和余承东,为何成为商界「顶流」?
字节豆包是少数能把对照方式形貌清晰,而且用对的。甚至还联系现实举例来验证。
对照惋惜的是文心一言,面临这个问题,也是触发了联网查询。
原本都已经做对了,但突然话锋一转又导向了错误结论。
不外从文心一言的思绪注释上,也可以看出背后问题所在。
由于大模子以token的方式来明白文字,当9.11被拆成“9”、“小数点”和“11”三部门时,11确实比9大。
由于OpenAI使用的Tokenizer开源,可以用来考察大模子是若何明白这个问题。
上图可以看出,9和小数点划分被分配为“24”和“13”,小数点后的9同样也是“24”,而11被分配到“994”。
以是使用这种tokenizer方式的大模子会以为9.11更大,实在是以为11大于9。
也有网友指出,像是书籍目录里第9.11节也比第9.9节大,以是最终可能照样训练数据里见这种见得多了,而手把手教基础算数的数据很少。
也就是问题自己对人类来说,一看就知道问的是算数问题,但对AI来说是一个模糊的问题,并不清晰这两个数字代表什么。
只要向AI注释明了这是一个双精度浮点数,就可以做对了。
在有分外条件的情形下,tokenizer这一步依然会给11分配更大的token。然则在后续自注重力机制的作用下,AI就会明了要把9.11连起来处置了。
厥后Goodside也弥补,并不是说大模子无论若何都认定了这个错误结论。而是当以特定方式提问时,许多*模子都市告诉你9.11>9.9,这很新鲜。
经由频频实验后他发现,想让AI上这个当,需要把选项放在提问前面,若是换取顺序就不会失足。
然则只要选项在问题前面,改变提问的方式,如加标点、换词汇都不会有影响。
虽然问题很简朴,错误很基础。
但领会失足原理之后,许多人都把这个问题当成了磨练提醒词技巧的试金石,也就是:用什么提问方式能指导大模子的注重力机制准确明白问题呢?
首先,赫赫著名的Zero-shot CoT头脑链,也就是“一步一步地想”,是可以做对的。
不外角色饰演提醒,在这里作用就有限了。
恰好最近也有微软和OpenAI都介入的一项研究,剖析了1500多份论文后发现,随着大模子手艺的提高,角色饰演提醒不像一最先那样有用了……
详细来说,统一个问题提醒“你是一个天才……”比“你是一个傻瓜……”的准确率还低。
也是让人啼笑皆非了。
One More Thing
与此同时,路透社的更新了。
更新内容为:另一位线人讲述,OpenAI已经在内部测试了新模子,在MATH数据集上得分跨越90%。路透社无法确定这是否与“草莓”是统一个项目。
MATH数据集包罗竞赛级其余数学题,现在不用多次采样平分外方式,最高分是谷歌Gemini 1.5 Pro数学强化版的80.6%。
然则OpenAI新模子在没有分外提醒情形下,能不能自主解决“9.11和9.9哪个大?”。
突然没信心了,照样等能试玩了再看效果吧……
参考链接:
[1]
[2]
[3]
[4]