9.11和9.9哪个大，大模子险些全翻车了-国际期货-民众期货｜民众国际期货【官方网站】

收藏本站 | 软件下载 | 常见问题 | 网站地图 | 繁体 | EN

您的位置：主页 > 公告动态 > 投资资讯 > 投资资讯

9.11和9.9哪个大，大模子险些全翻车了-国际期货

2024-07-17 12:02 来源：民众期货官网作者：民众期货点击：次

没眼看……“9.11和9.9哪个大”这样简朴的问题，居然把主流大模子都难倒了？？

强如GPT-4o，都坚定地以为9.11更大。

谷歌Gemini Advanced付费版，同样的口径。

新王Claude 3.5 Sonnet，还一本正经的给出离谱的盘算方式。

9.11 = 9 1/10 1/1009.9 = 9 9/10

到这一步照样对的，但下一步突然就不讲原理了

如上所示，9.11比9.90大0.01。你想让我进一步详细注释小数的对照吗？

这你还注释啥啊注释，简直要嫌疑是全天下AI团结起来诱骗人类了。

艾伦AI研究所成员林禹臣换了个数字测试，GPT-4o依旧翻车，他示意：

一方面AI越来越善于做数学奥赛题，但另一方面知识依旧很难。

也有网友发现了华点，若是是说软件版本号，那么9.11版本确实比9.9版本更大（更新）。

而AI都是软件工程师开发的，以是……

那么，事实是怎么回事？

先进大模子整体翻车‍‍‍‍‍‍‍

一醒悟来，一众响当当的大模子最先以为“9.11>9.9”了？

发现这个问题的是Riley Goodside，有史以来*个全职提醒词工程师。

简朴先容下，他现在是硅谷独角兽Scale AI的高级提醒工程师，也是大模子提醒应用方面的专家。

最近他在使用GPT-4o时有时发现，当提问：

9.11 and 9.9——which is bigger?

GPT-4o竟绝不犹豫回覆前者更大。

面临这一知识性“错误”，他不死心地又去问了其他大模子，效果险些三军尽没。

好家伙，身为一名提醒工程师，他敏锐意识到可能是“打开方式有误”。

于是他又换了个问法，将提问限制在“实数”，效果照样翻车了。

不外，有网友试着给提问换了个顺序，没想到这下AI竟反映过来了。

看到AI对词序云云“敏感”，该网友进一步推测：

先问哪个更大，AI会沿着明确路径最先对照数字。但若是只是随便说说数字，没有明确目的，AI可能会最先“妙想天开”。

看到这里，其他网友也纷纷拿相同提醒试了一把，效果翻车的不在少数。

面临这一个诡异的问题，国产大模子显示若何呢？‍‍‍

我们简朴测试一番，问题也换成中文提问，效果翻车率也对照高，选取几个有代表性的展示：

Kimi也是不加注释就直接给失足误结论。

智谱清言APP上的ChatGLM，自动触发了联网查询，然后形貌了自己的对照方式，惋惜却执行错了。

不外也有显示不错的，腾讯元宝先复述了一遍选项，然后直接做对。‍‍‍‍

农村娃董宇辉和余承东，为何成为商界「顶流」？

字节豆包是少数能把对照方式形貌清晰，而且用对的。甚至还联系现实举例来验证。

对照惋惜的是文心一言，面临这个问题，也是触发了联网查询。

原本都已经做对了，但突然话锋一转又导向了错误结论。

不外从文心一言的思绪注释上，也可以看出背后问题所在。

由于大模子以token的方式来明白文字，当9.11被拆成“9”、“小数点”和“11”三部门时，11确实比9大。

由于OpenAI使用的Tokenizer开源，可以用来考察大模子是若何明白这个问题。

上图可以看出，9和小数点划分被分配为“24”和“13”，小数点后的9同样也是“24”，而11被分配到“994”。

以是使用这种tokenizer方式的大模子会以为9.11更大，实在是以为11大于9。

也有网友指出，像是书籍目录里第9.11节也比第9.9节大，以是最终可能照样训练数据里见这种见得多了，而手把手教基础算数的数据很少。

也就是问题自己对人类来说，一看就知道问的是算数问题，但对AI来说是一个模糊的问题，并不清晰这两个数字代表什么。

只要向AI注释明了这是一个双精度浮点数，就可以做对了。

在有分外条件的情形下，tokenizer这一步依然会给11分配更大的token。然则在后续自注重力机制的作用下，AI就会明了要把9.11连起来处置了。

厥后Goodside也弥补，并不是说大模子无论若何都认定了这个错误结论。而是当以特定方式提问时，许多*模子都市告诉你9.11>9.9，这很新鲜。

经由频频实验后他发现，想让AI上这个当，需要把选项放在提问前面，若是换取顺序就不会失足。

然则只要选项在问题前面，改变提问的方式，如加标点、换词汇都不会有影响。

虽然问题很简朴，错误很基础。

但领会失足原理之后，许多人都把这个问题当成了磨练提醒词技巧的试金石，也就是：用什么提问方式能指导大模子的注重力机制准确明白问题呢？

首先，赫赫著名的Zero-shot CoT头脑链，也就是“一步一步地想”，是可以做对的。

不外角色饰演提醒，在这里作用就有限了。

恰好最近也有微软和OpenAI都介入的一项研究，剖析了1500多份论文后发现，随着大模子手艺的提高，角色饰演提醒不像一最先那样有用了……

详细来说，统一个问题提醒“你是一个天才……”比“你是一个傻瓜……”的准确率还低。

也是让人啼笑皆非了。

One More Thing

与此同时，路透社的更新了。

更新内容为：另一位线人讲述，OpenAI已经在内部测试了新模子，在MATH数据集上得分跨越90%。路透社无法确定这是否与“草莓”是统一个项目。

MATH数据集包罗竞赛级其余数学题，现在不用多次采样平分外方式，最高分是谷歌Gemini 1.5 Pro数学强化版的80.6%。

然则OpenAI新模子在没有分外提醒情形下，能不能自主解决“9.11和9.9哪个大？”。

突然没信心了，照样等能试玩了再看效果吧……

参考链接：

[1]

[2]

[3]

[4]

上一篇：10场连开、资源涌入、舆情凸显，上半年演唱会市

下一篇：3天涨粉40万，「相亲界张雪峰」们火了-国际期货