
面壁智能联合清华大学、OpenBMB开源社区,今天放出一个叫BitCPM-CANN的新成果——专门让大模型在手机上也能流畅跑起来。这四个模型(0.5B、1B、3B、8B参数规模)都在华为昇腾平台上原生完成,测试成绩不错。最吸引人的是,推理时显存占用只有传统BF16精度的六分之一,等于把原来需要高端显卡才能跑的8B参数模型,直接塞进了主流旗舰手机里。举个例子,以前想装个8B的AI模型,手机内存得4GB起步,现在可能1GB就够了——对厂商来说,成本降了,用户升级门槛也低了。
模型缩小了,但能力没缩水太多。BitCPM-CANN的核心能力保留率在90%到97.2%之间,三个主力尺寸的模型都超过了95.7%,最小的0.5B模型也保住了90%以上。这意味着压缩不是简单砍掉内容,而是通过低比特训练(就像把高清照片转成压缩版,但细节还能看清)做到了高效。面壁智能还配套搭建了完整的工程底座,包括长序列支持、算子优化等,给后续在昇腾上做低比特训练打好了基础。
一句话:大模型在设备上跑起来了,手机、平板、智能音箱这些“端侧”设备终于能真正用上AI,而不用总依赖云端。这波开源,很可能让下一部手机里那个“智能助手”变得更聪明、反应更快。毕竟显存解放了,厂商就能塞进更大、更强的模型。