应宗浩归档 - 每时AI

将越狱问题转换为求解逻辑推理题：「滥用」推理能力让LLM实现自我越狱

下午4时 2025/03/02 作者机器之心

大语言模型在推理任务中表现出色，但可能被恶意利用。来自北航等团队提出RACE框架，通过推理增强对话攻击模型的安全对齐机制。研究揭示了潜在威胁，并提出了防御策略。