20 小时前

CRISP:通过稀疏自编码器实现的持久概念遗忘

Tomer Ashuach, Dana Arad, Aaron Mueller, Martin Tutek, Yonatan Belinkov
CRISP:通过稀疏自编码器实现的持久概念遗忘
摘要

随着大型语言模型(LLMs)在现实应用场景中日益普及,如何在保留模型实用性的前提下,选择性地移除 unwanted knowledge( unwanted 知识),已成为亟待解决的关键问题。近期研究探索了稀疏自编码器(Sparse Autoencoders, SAEs)用于对单义特征进行精确干预。然而,大多数基于SAE的方法仅在推理阶段执行,无法对模型参数产生持久性修改。此类干预措施可能被拥有参数访问权限的恶意用户绕过或逆转。为此,我们提出CRISP——一种基于SAE的参数高效、持久化概念遗忘方法。CRISP能够自动识别跨多层的显著SAE特征,并抑制其激活。我们在两种大型语言模型上进行了实验,结果表明,与现有方法相比,CRISP在WMDP基准测试中的安全关键型遗忘任务上表现更优,成功移除了有害知识,同时有效保留了模型的通用能力与领域内性能。特征层面的分析显示,CRISP实现了目标概念与良性概念之间的语义一致分离,从而实现了对目标特征的精准抑制。