北大10小时搞定DeepSeek-V4评测：AI测试不用再写代码了

智享AI

封面图

DeepSeek-V4刚发布10小时，北大DCAI团队就甩出了一份全自动评测报告。这不是他们加班快，而是用了个新工具——开源的One-Eval框架。过去搞大模型评测，工程师得先挑基准集、写脚本、调字段、解析日志，光搭管道就得耗几天。现在好了，跟AI说句话，它自己就能跑。
传统评测为啥让人头疼？一是操作门槛高：参数多得眼花，一出错就得重来。二是结果像“黑盒”：分数出来了，你不知道它是怎么打的。最致命的是“数据污染”：模型可能在训练时偷偷见过测试题，分数再高也不代表真本领。行业里管这叫“榜单失灵”，高分不等于高能，公信力越来越低。
北大是怎么破局的？他们没去修补旧系统，而是直接换了一条路——把复杂的脚本操作变成自然语言对话。你只要输入“测测DeepSeek-V4在金融领域的表现”，One-Eval自动识别需求，匹配金融基准工具，后台静默配置完。它还搞了个“全局状态”总线，每个步骤都有记录，谁也别想赖账。当然，关键节点上，系统会停一下问人类：“这个确认没？”这样既快又稳，不瞎跑。
说白了，这个工具让评测从“工程师的噩梦”变成了“点鼠标的家伙”。
但大模型评测不只是技术活，它背后是门几百亿美元的生意。拿Scale AI来说，它干三件事：第一，卖订阅服务，帮企业做合规审计；第二，定标准，请人类专家盲测，谁想拿认证就得交钱；第三，最狠——发现模型有短板后，直接卖你对应的训练数据。这等于“先诊断，再卖药”，评测机构成了淘金热里稳赚的裁缝和裁判。
北大把One-Eval开源，等于往这个被资本把持的赛道里扔了一颗技术炸弹。以后小团队也能快速做专业评测，大厂的“认证壁垒”可能没那么牢了。AI迭代越来越快，谁能更快测出真实水平，谁就能先拿到下一张牌。