手机跑大模型不再是梦？面壁智能开源新模型，显存解放6倍

智享AI

封面图

面壁智能联合清华大学、OpenBMB开源社区，今天放出一个叫BitCPM-CANN的新成果——专门让大模型在手机上也能流畅跑起来。这四个模型（0.5B、1B、3B、8B参数规模）都在华为昇腾平台上原生完成，测试成绩不错。最吸引人的是，推理时显存占用只有传统BF16精度的六分之一，等于把原来需要高端显卡才能跑的8B参数模型，直接塞进了主流旗舰手机里。举个例子，以前想装个8B的AI模型，手机内存得4GB起步，现在可能1GB就够了——对厂商来说，成本降了，用户升级门槛也低了。
模型缩小了，但能力没缩水太多。BitCPM-CANN的核心能力保留率在90%到97.2%之间，三个主力尺寸的模型都超过了95.7%，最小的0.5B模型也保住了90%以上。这意味着压缩不是简单砍掉内容，而是通过低比特训练（就像把高清照片转成压缩版，但细节还能看清）做到了高效。面壁智能还配套搭建了完整的工程底座，包括长序列支持、算子优化等，给后续在昇腾上做低比特训练打好了基础。
一句话：大模型在设备上跑起来了，手机、平板、智能音箱这些“端侧”设备终于能真正用上AI，而不用总依赖云端。这波开源，很可能让下一部手机里那个“智能助手”变得更聪明、反应更快。毕竟显存解放了，厂商就能塞进更大、更强的模型。