谷歌Gemini 3发布预期拉满，历史学者称其解决了AI领域两个最古老难题

11月12日消息，日前，一篇名为《谷歌是否悄然解决了人工智能领域最古老的两个难题？》（Has Google Quietly Solved Two of AI’s Oldest Problems?）的文章在人工智能圈内迅速传播。
作者是加拿大滑铁卢劳里埃大学历史学副教授马克·汉弗莱斯（Mark Humphries），这位研究20世纪北美史的学者近年转向数字人文与人工智能应用研究。他在Substack平台的专栏《Generative History》中披露：他在谷歌AI Studio中试验的一款神秘模型，展现出“几乎完美”的手写识别能力，以及“自发的、抽象的、符号化推理”现象。
图片
注：AI Studio界面显示A/B测试
谷歌的AI Studio是一个开放实验平台，用户可在其中测试提示词、比较模型表现。最近一周，一部分用户发现系统会随机生成两份答案，要求他们选择较优者。这是大型AI实验室在模型上线前常用的A/B测试（用于比较两种或多种方案的效果，从而判断哪一个更优）方式。由此外界推测，这款正在试验的模型可能是即将发布的Gemini-3。
汉弗莱斯的实验原本只是想验证这款模型在“手写历史文档转录”任务上的表现，却意外观察到更深层的现象：模型不仅在转录精度上达到专家人类的水准，还能在面对模糊或不完整信息时，自行推理、纠正与解释，仿佛它在“理解”历史材料，而不仅仅在识别文字。
他写道：“我原以为AI在历史文档领域的突破还需数年，但这一模型展示的能力，已接近真正的人类专家，甚至在逻辑判断与语境还原上超出预期。”
若这些结果被证实，这将标志着AI历史上的一个关键时刻：机器不仅能“看懂”手写符号，还能像学者一样“思考”其背后的逻辑。这意味着，AI可能已同时跨越人工智能研究中两个最古老的难题——手写文本识别与符号推理。
01.从“预测机器”到“理解者”
手写文本识别（Handwritten Text Recognition, HTR）是AI研究史上最早的课题之一。早在上世纪40年代，研究者便尝试让计算机识别人类笔迹。1966年，IBM发布IBM 1287机器，它能读取数字和部分拉丁字母，被视为AI手写识别的开端。几十年来，研究者不断改进算法与视觉模型，却始终受限于一个难题：机器只能识别模式，无法理解语义。
图片
注：识别历史文稿
汉弗莱斯指出，识别历史文稿比普通文本复杂得多。因为这不仅是视觉问题，更是语言与文化理解的难题。18、19世纪的手稿充满拼写混乱、语法不统一、符号含糊与语义歧义。理解这些内容，需要同时调动语言学、历史背景、社会常识与逻辑推理。
他解释说：“人们以为古文档的难点在笔迹辨认，其实真正的挑战在于推断作者意图——那是视觉识别与逻辑推理的结合。”
在他的研究中，手写识别成为测试LLM（大语言模型）能力极限的理想场景。因为它要求模型将感知（Vision）与语言（Language）、世界知识（World Knowledge）与逻辑（Reasoning）整合到同一任务中。如果模型能在这种复杂任务中实现突破，就可能预示着更广泛的智能能力的涌现。
图片

谷歌Gemini 3发布预期拉满，历史学者称其解决了AI领域两个最古老难题

资源分享更多>>