Meta 新旗舰 AI 模型 Llama 4 Maverick 测试成绩遭质疑,被指针对性优化
作者:灵犀软件园时间:2025-06-27 16:37:30
本站 4 月 7 日消息,Meta 公司上周发布了一款名为 Maverick 的新旗舰 AI 模型,并在 LM Arena 测试中取得了第二名的成绩。然而,这一成绩的含金量却引发了诸多质疑。据多位 AI 研究人员在社交平台 X 上指出,Meta 在 LM Arena 上部署的 Maverick 版本与广泛提供给开发者的版本并不一致。
Meta 在其公告中明确提到,参与 LM Arena 测试的 Maverick 是一个“实验性聊天版本”。而根据官方 Llama 网站上公布的信息,Meta 在 LM Arena 的测试中所使用的实际上是“针对对话性优化的 Llama 4 Maverick”。这表明,该版本经过了专门的优化调整,以适应 LM Arena 的测试环境和评分标准。
然而,LM Arena 作为一项测试工具,其可靠性本身就存在一定的争议。尽管如此,以往 AI 公司通常不会对模型进行专门的定制或微调,以在 LM Arena 上获得更高的分数,至少没有公开承认过这种做法。而 Meta 此次的行为。
这种对模型进行针对性优化,然后只发布一个“普通版”的行为,给开发者带来了诸多困扰。因为这使得开发者难以准确预测该模型在特定场景下的实际表现。此外,这种行为也具有一定的误导性。理想情况下,尽管现有的基准测试存在诸多不足,但它们至少能够为人们提供一个关于单一模型在多种任务中优缺点的概览。
事实上,研究人员在 X 上已经观察到了公开可下载的 Maverick 版本与 LM Arena 上托管的模型之间存在显著的行为差异。例如,LM Arena 版本似乎更倾向于使用大量的表情符号,并且给出的答案往往冗长且拖沓。
截至本站发稿,Meta 公司以及负责维护 LM Arena 的 Chatbot Arena 组织暂未对此做出回应。
相关文章
-
Meta 新旗舰 AI 模型 Llama 4 Maverick 测试成绩遭质疑,被指针对性优化
本站 4 月 7 日消息,Meta 公司上周发布了一款名为 Maverick 的新旗舰 AI 模型,并在 LM Arena 测试中取得了第二名的成绩。然而,这一成绩的含金量却引发了诸多质疑。据多位 A
-
三星预计今年 Q1 营业利润 5.2 万亿韩元同比下滑 21%,芯片业务承压
本站 4 月 7 日消息,据路透社报道,三星电子预测,今年第一季度营业利润同比下滑 21%。初步业绩报告将于周二公布。三星当前正在进行管理层重组。据本站此前报道,该公司联席 CEO 韩钟熙于 3 月底
-
苹果 iPhone 17 Pro 系列新机模渲染曝光,直观展示后置“横向大矩阵”摄像头模组设计
本站 4 月 7 日消息,博主@数码闲聊站 发布一张机模渲染图,展示了苹果即将推出的iPhone 17 Pro系列手机设计,直观展示了该机“横向大矩阵”摄像头模组,考虑到该博主发布内容有较高准确度,该
-
WinRAR 旧版本存安全漏洞,可绕过 Windows 安全警告执行恶意软件
本站 4 月 7 日消息,WinRAR 作为电脑用户中广受欢迎的压缩软件,数十年来一直为用户提供便捷的数据压缩服务,方便用户将文件压缩成更小的体积以便于传输。然而,除最新版外的所有 WinRAR 版本
-
旧金山市长喊话科技公司 CEO:怎样才能让你们回到这里、留在这里
本站 4 月 7 日消息,据外媒 TechCrunch 报道,旧金山市长丹尼尔・卢里在当地时间 3 日的一场活动上说,自己会亲自打电话给科技公司的 CEO 们,联系创业者并问他们“怎么才能让你留下?”
-
极星 2026 款 Polestar 2 轿车官图公布:座舱升级、引入宁德时代 70 千瓦时电池
本站 4 月 7 日消息,虽然2025年上半年还未结束,但目前有不少厂商已抢先公布自家2026年款车型,目前极星便在海外公布了其 2026款 Polestar 2 车型官图,主要在座舱细节方面进行改进