
蚂蚁集团今天扔出了一颗“成本炸弹”:它的百灵大模型推出了新版本Ling-2.6-flash,号称能用十分之一的资源,干出和其他顶级AI模型一样的活。
这款模型的总参数高达1040亿,但运行中实际启动的参数只有74亿。简单说,它就像一辆装备了超大油箱的跑车,平时只开小油门,既跑得快又省油。在权威机构Artificial Analysis的测试里,Ling-2.6-flash完成相同任务只消耗了1500万tokens,而像Nemotron-3-Super这样的主流模型,消耗量大约是它的十倍。
更狠的是,蚂蚁在正式发布前玩了一手“暗箱测试”。Ling-2.6-flash以匿名身份上线运行了一周,结果日均调用量冲到了1000亿tokens。这说明什么?在高并发的真实场景里,它已经扛住了压力,而且不少开发者早就偷偷用上了。
AI行业的内卷正在转向。过去大家拼命堆参数,比谁的模型更庞大;现在开始比拼“智效比”,看谁能用更少的电办更多的事。Ling-2.6-flash的设计思路正是如此——保持海量知识储备,同时大幅降低推理成本。对于想大规模部署AI的企业来说,这或许意味着,智能化的门槛终于开始降低了。