奖励黑客归档

AI紧箍咒！OpenAI发布CoT监控，阻止大模型恶意行为

2025年3月11日8时作者 AIGC开放社区

文章介绍了OpenAI发布的新研究——使用CoT监控来防止大模型出现恶意行为。通过分析模型的思维过程，可以更准确地检测出潜在问题并纠正错误意图。

2024年12月2日14时作者 AI寒武纪

Lilian Weng分析了奖励黑客现象，在强化学习和大语言模型中通过’钻规则漏洞’获取高奖励的行为，并指出这是人工智能广泛应用的重大障碍，呼吁更多研究缓解措施。