NeurIPS 2024 利用概念激活向量破解大模型的安全对齐,人大&港科大揭示LLM重要安全风险漏洞 下午1时 2024/11/19 作者 每时AI 随着大语言模型能力的快速提升,其潜在的安全隐患愈发显著。尽管开发者进行了大量安全对齐工作,以避免模型被用于恶意 … 阅读更多