
在人工智能飞速发展的今天,我们越来越依赖AI来处理信息、辅助决策,甚至在专业领域提供支持。然而,一个关键问题始终伴随左右:AI说的话,究竟有多靠谱?近日,谷歌联合数据科学平台Kaggle推出了一项名为FACTS(Factuality and Accuracy in Complex Tasks)的基准测试套件,首次为衡量AI模型的事实准确性提供了一个更严谨、更贴近实际应用的标准。这项工作不仅揭示了当前顶尖AI模型在“说真话”这件事上面临的严峻挑战,也为我们理解AI的局限性以及未来的发展方向提供了重要参考。
FACTS基准的诞生,正是为了弥补当前AI评估体系在事实准确性方面的短板。以往的评估往往侧重于模型的流畅度或通用能力,却忽视了在法律、金融、医疗等对精确度要求极高的行业中,AI输出信息的真实性才是生命线。FACTS将“事实性”拆解为两个核心场景:一是“上下文事实性”,即模型能否根据提供给它的信息,生成准确无误的回答;二是“世界知识事实性”,即模型能否从其“记忆”或互联网上准确检索并引用信息。这种区分,让评估更加精细化,也更贴近AI在实际工作中的不同应用模式。
令人警醒的是,FACTS的初步测试结果显示,即便是包括谷歌自家的Gemini 3 Pro、OpenAI的GPT-5以及Anthropic的Claude 4.5 Opus在内的当前最先进模型,在这一基准测试中的整体准确率也未能突破70%的大关。这无疑给业界敲响了警钟:尽管AI能力日新月异,但在确保信息准确性方面,它们仍有很长的路要走。
FACTS基准的设计并非简单的选择题或填空题,而是包含四个相互关联的测试模块,力求模拟开发者在实际部署AI时可能遇到的各种“翻车”场景。这四个模块分别是:参数基准(考察模型内部知识的调用)、搜索基准(评估模型调用外部工具,如搜索引擎的能力)、多模态基准(测试模型对图像等非文本信息的理解与提取)以及上下文基准(检验模型在给定文本信息下的推理能力)。为了防止模型“押题”,Kaggle保留了部分测试数据,开发者无法直接在测试集上进行训练,确保了评估的公正性。
从初步的测试数据来看,Gemini 3 Pro以68.8%的综合得分暂时领先,但其表现并非全面均衡。特别是在“搜索”这一模块,Gemini 3 Pro取得了高达83.8%的优异成绩,这说明当AI能够有效利用外部搜索工具时,其获取和整合信息的能力会显著增强。这对于那些希望通过构建检索增强生成(RAG)系统来提升AI准确性的企业来说,是一个重要的启示:将模型与强大的搜索能力或向量数据库结合,是提升信息准确性的有效途径。
然而,在多模态任务上,AI的表现则显得力不从心。即便是表现最好的Gemini 2.5 Pro,在该项测试中的准确率也仅有46.9%。这表明,当前的多模态AI在自主、无监督的数据提取方面,成熟度还远未达到预期。这意味着,如果企业计划在产品中依赖AI进行图像或视频等非文本信息的自动提取与分析,则需要谨慎评估其风险,并做好相应的应对准备。
总而言之,FACTS基准的推出,不仅为AI模型的事实准确性评估树立了一个新的标杆,更深刻地揭示了当前AI技术在“说真话”这一核心能力上存在的普遍性挑战。70%的准确率天花板,预示着AI在理解世界、忠实传达信息这条道路上,还有巨大的创新和优化空间。未来,我们需要更精细化的评估体系,更强大的模型能力,以及更审慎的应用策略,才能真正让AI成为可靠的助手,而非潜在的“信息误导者”。