新研究发现 AI 无法读懂模拟时钟,还不能告诉你某天是周几
作者:灵犀软件园时间:2025-05-20 15:06:14
本站 5 月 17 日消息,根据外媒 LiveScience 今日报道,有些人类能轻松完成的任务,AI 却无法胜任。譬如,AI 能编程、画出逼真的图像、生成接近人类语气的文本,甚至在部分考试中取得不错成绩,但在日常生活中最基础的“看钟”“算日子”这类事情上,却频繁出错 —— 要么读不准指针位置,要么算不出星期几。
研究人员在 2025 年“国际学习表征会议”( ICLR )上介绍了这项发现,有关的论文已经在 arXiv 上发布,目前尚未通过同行评审。
爱丁堡大学研究员、论文作者 Rohit Saxena 表示:“人类从小就能掌握时间与日历概念,而 AI 在这方面的不足,是一个值得警惕的信号。”他指出,若要将 AI 应用于现实生活中对时间敏感的场景,比如排班、自动化流程或辅助技术,这类基本能力的缺陷必须解决。
研究团队向多个具备图文处理能力大语言模型的输入了一组专门制作的时钟与日历图像,受测模型包括 Meta 的 Llama 3.2-Vision、Anthropic 的 Claude-3.5 Sonnet、谷歌的 Gemini 2.0 和 OpenAI 的 GPT-4o。测试结果显示,这些模型在判断时钟时间或推算日期星期的任务上,正确率都未超过一半。
Saxena 表示:“过去的 AI 训练依赖大量带标签的例子,而读时钟需要的是空间推理。模型不仅要识别指针是否重叠,还要理解角度、分辨各种风格的表盘,比如罗马数字或艺术化设计。这远比单纯识别‘这是一个时钟’更复杂。”
日历问题同样难住了 AI。例如在“每年第 153 天是星期几”这类问题上,错误率依然居高不下。研究显示,AI 读时钟的正确率仅为 38.7%,判断日历的准确率更低,只有 26.3%。
Saxena 解释道:“对传统计算机来说,算术轻而易举,但对大模型而言则不然。AI 并不执行算法,而是依靠从训练数据中学到的模式来预测答案。”他指出,虽然 AI 有时能答对问题,但其推理过程缺乏一致性,也不基于固定规则,这正是研究所揭示的差距。
研究还揭示了另一个问题,即当 AI 的训练样本缺乏某类现象时,比如闰年或复杂的日历规则,其表现往往更差。Saxena 表示:“即使模型了解‘闰年’这一概念,也不代表它们能将这个知识正确应用到具体的视觉判断中。”
本站从报道中获悉,研究强调了两个方面的改进方向:一是训练数据应包含更多具有代表性的示例;二是应重新审视 AI 如何整合逻辑推理与空间感知,尤其是在处理不常遇到的任务时。
相关文章
-
新研究发现 AI 无法读懂模拟时钟,还不能告诉你某天是周几
本站 5 月 17 日消息,根据外媒 LiveScience 今日报道,有些人类能轻松完成的任务,AI 却无法胜任。譬如,AI 能编程、画出逼真的图像、生成接近人类语气的文本,甚至在部分考试中取得不错
-
任天堂确认自家 Switch 2 游戏不采用实体密钥卡,坚持传统形式卡带
本站 5 月 17 日消息,如今许多游戏商计划为Switch 2推出游戏密钥卡,相应卡带不包含游戏数据,实际上只是用于验证玩家购买了游戏,需要先联网下载游戏数据才能游玩。对此,外媒NintendoLi
-
为应对关税政策,日本拟将特斯拉超级充电桩纳入当地“国补”
本站 5 月 17 日消息,日本 TBS 电视台今日报道称,在日美就削减关税削减展开磋商期间,日本方面正考虑为特斯拉充电桩建设提供补贴。本站从报道中获悉,日本政府仅为采用日本首创充电标准“CHAdeM
-
雷克沙不锈钢材质 SD 卡“ARMOR GOLD / SILVER PRO”国行上架,799 元起
本站 5 月 17 日消息,雷克沙在MWC2025期间推出全球首批采用不锈钢材质的SD卡,分别是ARMOR GOLD SDXC UHS-II与ARMOR SILVER PRO SDXC UHS-II,
-
含 B 站年卡:WPS 超级会员 2.3 元 / 月、28 元 / 年官方狂促闭眼囤
【赠 B 站年卡活动随时结束,详询客服,如果领取的时候没有 B 站,可以尝试先不领取,隔段时间再看看。】WPS 618 狂促现已开始,超级会员、大会员皆为好价。另外京东 618 可领至高 25618
-
64 位 RISC-V 成为 Debian 13 系统官方支持架构
感谢本站网友 有鲫雪狐 的线索投递! 本站 5 月 19 日消息,RISC-V 全球开源软件生态迈出一步,RISC-V 64 成为 Debian 官方支持