
在2025年世界人工智能大会的腾讯论坛上,一项旨在颠覆3D内容生产流程的技术正式亮相。腾讯公司在此次大会上发布了其备受瞩目的“混元3D世界模型1.0”版本,并宣布将其全面开源。这标志着业界迎来了首个能够支持沉浸式漫游、深度交互和复杂仿真的开源3D世界生成模型,为游戏开发、虚拟现实(VR)以及数字内容创作等领域带来了前所未有的想象空间。
过往,构建一个逼真的3D世界往往是耗时耗力的工程,需要专业建模师团队数周甚至数月的工作。而如今,腾讯混元3D世界模型1.0的出现,极大地改变了这一现状。它巧妙地融合了全景视觉生成与分层3D重建的前沿技术,能够理解用户输入的文字描述或图片信息,并迅速生成高质量、风格各异且可供自由漫游的3D场景。这意味着,过去需要专业技能才能完成的工作,现在仅凭简单的文字指令或上传一张图片,几分钟内便可初步实现。
对于游戏开发者而言,这意味着一个全新的创作起点。该模型能够快速生成包含建筑、地形、植被等丰富元素的完整3D场景,并且输出的Mesh文件可以直接导入Unity、Unreal Engine等主流游戏引擎,用于游戏原型搭建或关卡设计。更重要的是,模型还支持对前景物体进行独立调整以及更换天空背景,为创作者提供了极大的灵活性和个性化空间。即使是缺乏3D建模经验的普通用户,也能通过混元3D创作引擎,轻松搭建出360°沉浸式的视觉空间,并能无缝对接Vision Pro等虚拟头显设备,直接体验自己创造的虚拟世界。
混元3D世界模型1.0的核心竞争力,源于其独创的“语意层次化3D场景表征及生成算法”。这项算法将庞杂的3D世界分解为不同语意层级,能够智能地分离前景与背景、地面与天空,从而生成不仅视觉效果逼真,而且结构清晰的3D场景。模型输出的标准化3D Mesh资产,能够与Unity、Unreal Engine、Blender等主流3D创作工具无缝兼容,用户可以对场景内的具体元素进行独立编辑,甚至进行物理仿真,实现了AIGC技术与传统CG工作流的完美融合。相较于当前全球领先的开源模型,混元3D世界模型1.0在文生世界、图生世界的视觉美学质量和指令遵循能力等关键指标上,均展现出了显著的优势。
此次发布也揭示了腾讯混元在AI领域的宏大开源计划。除了3D世界模型,腾讯还披露了一系列包括端侧混合推理语言模型、多模态理解模型、游戏视觉模型等在内的开源项目。其中,混元旗舰模型TurboS自年初以来保持着高速迭代,在代码生成、科学推理以及复杂指令遵循方面能力持续增强,稳居全球大模型权威排行榜前列。基于TurboS基座的混元T1模型,进一步提升了推理效率,展现出国内领先的综合实力。此外,端到端语音模型混元Voice、多模态理解模型混元Vision等,也均依托混元大语言模型基座打造,继承了其强大的理解、认知和推理能力,在多模态领域屡创佳绩。
腾讯混元在多模态生成领域同样布局广泛,尤其在3D生成方面已达全球领先水平。最新发布的混元3D2.5模型,在质感表现上有了大幅提升,并在上海人工智能实验室的评测中荣获全球第一。除了混元3D世界模型1.0,腾讯还计划在本月底开源一系列轻量级模型,包括0.5B、1.8B、4B、7B等不同规模的混合推理模型,这些模型将更易于部署和应用。同时,多模态理解模型混元-large-vision以及专为游戏场景优化的交互式游戏视频生成框架混元GameCraft,也将在近期陆续开源。腾讯混元还开放了完整的文生图、视频生成和3D生成能力及工具集插件,为社区提供了接近商业模型性能的开源基座,赋能开发者根据自身业务和场景进行定制化开发。目前,混元3D系列模型的社区下载量已突破230万次,已然成为全球最受欢迎的3D开源模型之一。
此次腾讯混元3D世界模型1.0的开源,无疑将加速3D虚拟内容创作的民主化进程,让更多人能够轻松参与到虚拟世界的构建和体验中,预示着一个更加丰富多元的数字内容新时代的到来。