5 天前

从分数到能力:一种用于评估金融领域大语言模型的认知诊断框架

Ziyan Kuang, Feiyu Zhu, Maowei Jiang, Yanzhao Lai, Zelin Wang, Zhitong Wang, Meikang Qiu, Jiajia Huang, Min Peng, Qianqian Xie, Sophia Ananiadou
从分数到能力:一种用于评估金融领域大语言模型的认知诊断框架
摘要

大型语言模型(LLMs)在金融领域展现出巨大潜力,但由于现有评估基准的不足,其在这一高风险领域中的适用性仍缺乏充分验证。现有的评估基准仅依赖于得分层面的评价,通过单一分数来概括模型性能,从而掩盖了模型真实掌握的知识及其具体局限性的细致理解。此外,这些基准所使用的数据集仅涵盖金融概念的狭窄子集,忽视了实际应用中至关重要的其他要素。为弥补这些缺陷,我们提出了FinCDM——首个专为金融领域大语言模型设计的认知诊断评估框架,能够从知识-技能维度对模型进行评估,通过分析模型在带有技能标签任务中的回答模式,识别其具备或缺失的金融知识与能力,而非依赖单一汇总数值。我们构建了CPA-QKA,这是首个基于注册会计师(CPA)考试、具有认知启发性的金融评估数据集,全面覆盖现实世界中的会计与金融技能。该数据集由领域专家严格标注,涵盖问题的编写、验证与细粒度知识标签的标注,具有高一致性与精细度。我们在30个专有、开源及领域特定的LLM上开展的大量实验表明,FinCDM能够揭示隐藏的知识盲区,识别出传统基准常忽略的、如税务与监管推理等未充分测试的领域,并发现模型间的潜在行为聚类。FinCDM通过实现可解释、技能感知的诊断评估,为金融领域大语言模型的评价引入了新范式,有助于推动更可信、更精准的模型开发。所有数据集与评估脚本将公开发布,以支持后续研究。