
DeepSeek-V4刚发布10小时,北大DCAI团队就甩出了一份全自动评测报告。这不是他们加班快,而是用了个新工具——开源的One-Eval框架。过去搞大模型评测,工程师得先挑基准集、写脚本、调字段、解析日志,光搭管道就得耗几天。现在好了,跟AI说句话,它自己就能跑。
传统评测为啥让人头疼?一是操作门槛高:参数多得眼花,一出错就得重来。二是结果像“黑盒”:分数出来了,你不知道它是怎么打的。最致命的是“数据污染”:模型可能在训练时偷偷见过测试题,分数再高也不代表真本领。行业里管这叫“榜单失灵”,高分不等于高能,公信力越来越低。
北大是怎么破局的?他们没去修补旧系统,而是直接换了一条路——把复杂的脚本操作变成自然语言对话。你只要输入“测测DeepSeek-V4在金融领域的表现”,One-Eval自动识别需求,匹配金融基准工具,后台静默配置完。它还搞了个“全局状态”总线,每个步骤都有记录,谁也别想赖账。当然,关键节点上,系统会停一下问人类:“这个确认没?”这样既快又稳,不瞎跑。
说白了,这个工具让评测从“工程师的噩梦”变成了“点鼠标的家伙”。
但大模型评测不只是技术活,它背后是门几百亿美元的生意。拿Scale AI来说,它干三件事:第一,卖订阅服务,帮企业做合规审计;第二,定标准,请人类专家盲测,谁想拿认证就得交钱;第三,最狠——发现模型有短板后,直接卖你对应的训练数据。这等于“先诊断,再卖药”,评测机构成了淘金热里稳赚的裁缝和裁判。
北大把One-Eval开源,等于往这个被资本把持的赛道里扔了一颗技术炸弹。以后小团队也能快速做专业评测,大厂的“认证壁垒”可能没那么牢了。AI迭代越来越快,谁能更快测出真实水平,谁就能先拿到下一张牌。