嵌入层攻击归档 - 每时AI

NeurIPS 2024 利用概念激活向量破解大模型的安全对齐，人大&港科大揭示LLM重要安全风险漏洞

下午1时 2024/11/19 作者每时AI

随着大语言模型能力的快速提升，其潜在的安全隐患愈发显著。尽管开发者进行了大量安全对齐工作，以避免模型被用于恶意 … 阅读更多