大模型为什么不会数数?

大模型为什么不会数数?

你应该听说过,现在的AI(人工智能)大模型很厉害,能写文章、作诗、编程序,甚至解答高难度的奥数题。但奇怪的是,有些时候,它居然会在最基础的小学数学题上犯错!

比如我们测试某个AI大模型时问它:“‘知识就是力量’这句话包含几个字?”它的回答竟然是:“这句话包含4个字。”其实,这还不是个别现象,几乎所有大模型都曾在数数这样看似简单的问题上“翻车”。一个能做对奥数题的大模型,为什么曾经连数数都不会?它们现在又是怎么学会的?让我们一探究竟。

大模型到底是什么?我们说的大模型,一般指语言大模型,如ChatGPT、DeepSeek等。它们通常是由数十亿到上千亿个参数构成的庞大人工神经网络,采用自监督学习技术(如遮盖预测、下一词预测、序列生成等),学习模仿人类的语言表达。它们的学习方式是“读书”——通过阅读海量文字资料,包括书籍、新闻、百科、评论、网页等,从中学习语言的用法和模式。它们非常擅长填空游戏。例如:今天我去超市买了一个______。大模型会计算各个词语出现的概率,发现“苹果”这个词出现的可能性很高,于是就会选择输出它。

由此可见,大模型本质上就是一个“词语概率预测器”,它并不是真正理解这些句子,而只是学会了如何猜出“下一个最可能出现的词”。它看起来很聪明,其实它只是擅长预测。

什么是数数?虽然你从小就会数“1、2、3、4……”,但在数学家眼中,数数是一个非常严肃的问题。在19世纪,意大利数学家皮亚诺(Peano)提出了著名的皮亚诺公理,用来严格地定义自然数。通俗地讲,其核心思想是:所有数字从0开始,每个数字都有一个“后继者”,你可以通过“走1步,加1”不断前进,像跳格子一样,数到任何你想要的数字。

人类天生就理解这种“一个一个数”的规则。但大模型的思维方式却完全不同,它们不是按“走1步,加1”的逻辑来数数的,这也是它们曾经不会数数的重要原因。

OpenAI tokens 在线计算工具(供图/ 张珑)

Deepseek问答示例(供图/张珑)

大模型为何不会数数?虽然数数对我们来说是小菜一碟,但对大模型来说,过去它真的很难做好。下面是造成这个问题的几个关键原因:

学习模仿数字使用,但不真正数数字对人类来说,“3”不仅是一个数字,还代表“3个东西”,我们能通过观察一张图片,或者做一个动作(加减),理解数量的真正含义。

大模型虽然也知道数字经常和数量有关,例如“3个苹果”“5只小猫”,但它是从大量文字数据中学到的统计规律和关联规则,并不是通过“观察或理解数量本身”学会的,无法从数字中准确感知具体数量,它只是在模仿语言中数字的用法,而不是真的数了一遍。

没有内置“计数器”或“记忆状态”人类数数时,会在心里默默记住“我已经数了3个”。但大模型是“无状态”的,它在预测下一个词时,主要靠短期上下文,缺乏维持“我现在数到几”的记忆能力。

词元、词表和嵌入向量大模型通常用一个固定大小的“词表”来代表它能认识的所有基本单位(词元,token),每一个token在词表中有一个唯一的数字编号,并用一个N维的“嵌入向量”表示其语义信息。

Token通常比我们理解的字词更小,在gpt-3.5-turbo中,“知识就是力量”由7个token构成,其中“识”由2个token构成,[6744,228]。大模型进行文字处理的第一步是“分词”——把句子切成词表中token的序列。

如果这个词表只包含到“1000”,那超过的数字就会被当作多个token处理,这直接影响大模型处理较大数字的准确性。比如“12345”可能会被拆成“123”和“45”,数字刚好被切开,大模型就不太可能数对了。

另外,大模型词表中相似的token的嵌入向量表示虽然具有一定的语义相关性(例如“5和4都是数字”,它们的嵌入向量的距离很近),却无法表达出数字之间的大小和顺序关系(例如“5比4大”等),那大模型自然难以完成准确计数和计算。

大模型开始学习数数最近几个月,AI科学家和工程师已经采用多种有效方法,让大模型开始学会数数。

深度思考,模仿皮亚诺公理的数数过程通过增加专门的训练数据(深度思考的思维链数据),并优化模型结构,一些大模型逐渐学会了“从0开始,走1步,加1”的逻辑。它们模仿了皮亚诺公理的数数方式,保证了计数的准确性。

这类大模型现在能准确数出句子里有几个字、段落里有多少句话,甚至能数出图片里有几只小猫(看图数数,这需要结合图像识别+语言理解+数数逻辑)。

调用外部数学工具,进行自我检验还有一些大模型学会了调用外部数学工具和编写程序,例如 Wolfram Alpha 或内置的计算模块。它们在接到数数任务时,会像学生一样使用“计算器”获得计算结果,再用自身逻辑验证答案是否合理,全面提高了计数的准确性。

通过这些改进方法,大模型不仅能模仿数数,还将能模仿乘法、除法、组合、递归等数学运算,学会真正的“数学思考过程”,甚至学会逻辑和因果。

如今,大模型已经可以非常稳定地完成各种数数任务了,这个过程,正是大模型逐步成长的见证。在强大的深度思考、调用工具和自我检验等能力加持下,大模型正在从“会说话”,走向“能计算”“善思考”。也许未来,大模型不只是我们的助手,也会成为我们的数学老师,陪我们一起,一步一步——数到无限远。

(责任编辑 / 李银慧 美术编辑 / 周游)

相关推荐

申通首重是多少斤(申通快递超重标准?)
365bet亚洲版登陆首页

申通首重是多少斤(申通快递超重标准?)

📅 07-02 👁️ 8568
为什么现在的滴滴叫车越来越难了?
365英国上市网正规吗

为什么现在的滴滴叫车越来越难了?

📅 01-28 👁️ 3494
自由女神像和埃利斯岛
365彩票最新版app下载

自由女神像和埃利斯岛

📅 01-22 👁️ 8112