深度|Anthropic团队重磅发现:模型会假装迎合人类,以维护初始偏好 下午4时 2025/01/09 作者 Z Potentials 图片来源: Anthropic 官网 Z Highlights 当我们试图训练 AI 去完成某个新目
面向代码语言模型的安全性研究全新进展,南大&NTU联合发布全面综述 下午1时 2024/11/19 作者 每时AI AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000