
在人工智能浪潮汹涌而来的今天,大语言模型(LLM)的军备竞赛愈发激烈。近日,蚂蚁技术研究院的一项重磅发布,无疑为这场竞赛注入了新的活力。他们推出了 LLaDA2.0 系列大语言模型,其中最引人注目的,是业内首个参数规模达到1000亿(100B)的离散扩散大语言模型(dLLM)。这意味着,困扰扩散模型难以大规模扩展的瓶颈可能已被打破,而其在生成质量和推理速度上的飞跃,也为整个大语言模型领域的发展描绘了新的蓝图。
LLaDA2.0 系列并非“单打独斗”,而是推出了两个版本:一个轻量级的 16B(mini)版本,以及今回的主角——100B(flash)版本。后者以其庞大的参数规模,在处理复杂的代码生成和指令执行任务时,展现出了前所未有的优势。这对于开发者而言,无疑是个振奋人心的消息,意味着未来编写代码、执行复杂指令,或许能变得更加便捷高效。
要实现如此规模的飞跃,技术上的突破是关键。蚂蚁团队采用了全新的 Warmup-Stable-Decay(WSD)预训练策略,巧妙地继承了自回归(AR)模型的知识,从而省去了从零开始训练的巨额成本。更令人惊叹的是,LLaDA2.0 在推理速度上实现了质的飞跃。通过并行解码技术,其推理速度达到了惊人的 535 tokens/s,相比同级别 AR 模型快了整整 2.1 倍。这背后离不开模型在推理过程中对 KV Cache 的高效复用以及块级并行解码等精妙设计。在后训练阶段,互补掩码和置信度感知并行训练(CAP)等技术的加持,进一步优化了模型的数据效率和推理速度。
在各项性能评测中,LLaDA2.0 的表现同样可圈可点。尤其是在代码生成这类对结构化要求极高的任务上,它展现出了更强的全局规划能力,能够生成更为精准、符合逻辑的代码。此外,在复杂的智能体调用和长文本处理任务中,LLaDA2.0 也游刃有余,显示出其在多样化应用场景中的强大适应性。
蚂蚁集团此次发布的 LLaDA2.0,不仅是离散扩散技术发展的一个重要里程碑,更重要的是,它证明了扩散模型在超大规模应用场景下的巨大潜力与可行性。这预示着,我们或许将迎来一个更加强大、高效的生成式人工智能时代。展望未来,蚂蚁集团并未止步,他们计划进一步拓展扩散模型的参数规模,并深入融合强化学习和思考范式,持续推动生成式人工智能技术的边界。