潘文博归档 - 每时AI

潘文博@香港城市大学：揭示大模型安全对齐的隐藏维度：从多维特征空间看对齐机制与脆弱性

2025-04-26 作者机器学习算法与自然语言处理

MLNLP社区举办学术Talk，邀请香港城市大学潘文博分享大模型安全对齐的研究成果，揭示其内部机制由多个维度控制，主持人王鹏介绍相关背景知识。