1 天前

约束引导的扩散推理器用于神经符号学习

Xuan Zhang, Zhijian Zhou, Weidi Xu, Yanting Miao, Chao Qu, Yuan Qi
约束引导的扩散推理器用于神经符号学习
摘要

使神经网络能够学习复杂的逻辑约束并实现符号推理,是一个关键性挑战。弥合这一鸿沟通常需要引导神经网络的输出分布向符号约束靠拢。尽管扩散模型在多个领域已展现出卓越的生成能力,我们仍采用其强大的架构来实现神经符号学习,并解决逻辑谜题。我们提出的基于扩散模型的流水线采用两阶段训练策略:第一阶段聚焦于培养基础推理能力,第二阶段则强调对逻辑约束的系统性学习。在第二阶段,为对神经网络输出施加硬性约束,我们将扩散推理器建模为马尔可夫决策过程,并创新性地采用改进的近端策略优化算法对其进行微调。我们利用基于逻辑一致性的规则化奖励信号来评估神经网络输出,并采用灵活的策略优化扩散推理器的策略。我们在若干经典的符号推理基准任务上评估了所提出方法,包括数独、迷宫、路径规划和偏好学习。实验结果表明,该方法在神经网络中实现了卓越的准确率与逻辑一致性。