
近日,上海人工智能实验室联合浙江大学等机构,推出了一项名为IWR-Bench的全新评测基准。这项测试的出现,标志着AI在理解和生成动态交互式网页代码方面,首次有了一个专门的“考场”。它不再满足于简单地将一张图片“翻译”成代码,而是要求AI“观看”一段用户操作视频,并据此重建出具备动态交互功能的网页,这在AI前端开发领域填补了一项重要的空白。
以往,AI在代码生成方面的能力,更多体现在将静态的图像或文本描述转化为代码。但真实的网页开发远不止于此,用户与网页之间的互动、信息的动态变化,才是网页的灵魂所在。IWR-Bench正是为了解决这一难题而生。它要求AI模型不仅要“看懂”用户在视频中演示的每一个点击、滑动、输入等操作,还要理解这些操作背后触发的逻辑、状态的变化,并最终将这一切转化为可以实际运行的HTML、CSS和JavaScript代码。测试的复杂度也相当高,从简单的网页浏览到复杂的2048游戏,再到机票预订这类涉及多步操作和数据交互的应用,都包含在内。
然而,测试结果却给人们泼了一盆冷水。即使是目前最先进的AI模型,包括备受瞩目的GPT-5,在IWR-Bench上的表现也远未达到理想水平。GPT-5的综合得分仅为36.35分,其中,交互功能的正确性(IFS)更是低至24.39%。这说明,虽然AI在还原网页的静态视觉外观(视觉保真度VFS,得分为64.25%)方面尚可,但在理解和实现网页的“动”起来的关键环节——即事件驱动的逻辑和动态交互功能上,还存在着显著的短板。简单来说,AI能“看”得像,但“做”不对。
为了更真实地模拟开发场景,IWR-Bench在设计上颇为用心。它不仅要求模型处理用户操作视频,还提供了所有必要的静态资源文件(如图片、样式表),并且对文件名进行了匿名化处理。这样做,是为了迫使模型不能依赖简单的语义匹配,而是必须通过理解视频中的因果关系和状态变化,来准确地将资源与代码逻辑关联起来。这种方法,极大地考验了模型在时序理解、逻辑抽象、资源匹配和代码生成这四大核心技术能力。
研究人员在测试中还观察到一些有趣的现象。一些引入了“思考”机制的模型版本,在特定任务上表现稍好,但提升幅度有限,这暗示着模型的基础能力仍然是关键。更令人意外的是,那些专门针对视频理解进行优化的模型,在视频转网页任务上的表现,反而不如那些通用的多模态大模型。这说明,视频转网页这项任务,与传统的视频内容理解有着本质的区别——它需要的不仅是理解“视频里有什么”,更需要将“视频里的行为”转化为“可执行的程序逻辑”。
GPT-5仅36.35分的综合得分,以及24.39%的交互功能正确率,清晰地揭示了当前AI在将动态行为转化为代码这一复杂任务上的巨大提升空间。这意味着,模型生成的网页中,超过四分之三的交互功能可能存在各种问题,例如按钮点击无效、信息更新错误、业务逻辑混乱等等。
IWR-Bench的推出,无疑为AI研究和应用带来了深远的意义。从研究层面看,它提供了一个全新的维度来衡量多模态模型的动态理解和代码生成能力,有助于精确地找出当前技术的薄弱环节。从应用层面看,一旦视频转网页的技术成熟,将有望极大地降低前端开发的门槛,让非专业人士也能通过演示操作,快速生成功能原型,加速产品迭代。
当然,我们也要理性看待。即便模型在IWR-Bench上取得高分,距离真正成熟的实际应用还有一段距离。真实的网页开发,还涉及性能优化、浏览器兼容性、安全防护、代码可维护性等诸多复杂维度,这些是单纯的视频演示难以完全涵盖的。同时,复杂的业务逻辑、难以预料的边缘情况以及用户体验的细节,也并非仅凭操作视频就能被AI完美推断。
从更宏观的行业趋势来看,IWR-Bench代表了AI代码生成正从“静态描述”走向“动态演示”,从“单帧画面”走向“连续动作”,从“文本指令”走向“行为模仿”。这与目前主流的AI编码助手主要依赖文本提示的模式形成了鲜明对比,也为未来“所见即所得”的智能开发工具奠定了技术基础。如果未来AI能在视频转网页任务上取得突破,我们或许能迎来新一代的原型开发工具,让产品经理或设计师通过录制一段操作视频,就能生成一个功能完善的交互式网页原型。
总而言之,IWR-Bench的测试结果表明,虽然AI在“看懂”静态画面方面取得了长足进步,但要真正做到“动手”并“做对”,尤其是在理解复杂的动态交互逻辑上,仍然面临巨大的挑战。它不仅提供了一个评测工具,更指明了多模态AI能力发展的一个重要方向——如何将观察到的动态世界,转化为可执行、可交互的数字世界。