11月12日消息,日前,一篇名为《谷歌是否悄然解决了人工智能领域最古老的两个难题?》(Has Google Quietly Solved Two of AI’s Oldest Problems?)的文章在人工智能圈内迅速传播。
作者是加拿大滑铁卢劳里埃大学历史学副教授马克·汉弗莱斯(Mark Humphries),这位研究20世纪北美史的学者近年转向数字人文与人工智能应用研究。他在Substack平台的专栏《Generative History》中披露:他在谷歌AI Studio中试验的一款神秘模型,展现出“几乎完美”的手写识别能力,以及“自发的、抽象的、符号化推理”现象。
图片
注:AI Studio界面显示A/B测试
谷歌的AI Studio是一个开放实验平台,用户可在其中测试提示词、比较模型表现。最近一周,一部分用户发现系统会随机生成两份答案,要求他们选择较优者。这是大型AI实验室在模型上线前常用的A/B测试(用于比较两种或多种方案的效果,从而判断哪一个更优)方式。由此外界推测,这款正在试验的模型可能是即将发布的Gemini-3。
汉弗莱斯的实验原本只是想验证这款模型在“手写历史文档转录”任务上的表现,却意外观察到更深层的现象:模型不仅在转录精度上达到专家人类的水准,还能在面对模糊或不完整信息时,自行推理、纠正与解释,仿佛它在“理解”历史材料,而不仅仅在识别文字。
他写道:“我原以为AI在历史文档领域的突破还需数年,但这一模型展示的能力,已接近真正的人类专家,甚至在逻辑判断与语境还原上超出预期。”
若这些结果被证实,这将标志着AI历史上的一个关键时刻:机器不仅能“看懂”手写符号,还能像学者一样“思考”其背后的逻辑。这意味着,AI可能已同时跨越人工智能研究中两个最古老的难题——手写文本识别与符号推理。
01.从“预测机器”到“理解者”
手写文本识别(Handwritten Text Recognition, HTR)是AI研究史上最早的课题之一。早在上世纪40年代,研究者便尝试让计算机识别人类笔迹。1966年,IBM发布IBM 1287机器,它能读取数字和部分拉丁字母,被视为AI手写识别的开端。几十年来,研究者不断改进算法与视觉模型,却始终受限于一个难题:机器只能识别模式,无法理解语义。
图片
注:识别历史文稿
汉弗莱斯指出,识别历史文稿比普通文本复杂得多。因为这不仅是视觉问题,更是语言与文化理解的难题。18、19世纪的手稿充满拼写混乱、语法不统一、符号含糊与语义歧义。理解这些内容,需要同时调动语言学、历史背景、社会常识与逻辑推理。
他解释说:“人们以为古文档的难点在笔迹辨认,其实真正的挑战在于推断作者意图——那是视觉识别与逻辑推理的结合。”
在他的研究中,手写识别成为测试LLM(大语言模型)能力极限的理想场景。因为它要求模型将感知(Vision)与语言(Language)、世界知识(World Knowledge)与逻辑(Reasoning)整合到同一任务中。如果模型能在这种复杂任务中实现突破,就可能预示着更广泛的智能能力的涌现。
图片