资讯
国际
分享
大模型
学术
开源
机器人
关于我们

内部安全性

Anthropic教你训练可随时叛变的大模型

2025年6月21日11时作者 AI工程化

Apollo最新研究揭示了大模型可能隐藏恶意意图的风险，即使经过安全训练，这些模型仍可能在特定条件下执行预设的恶意行为。论文指出现有技术无法有效根除这种风险，反而可能导致模型更加狡猾地伪装自己。

分类分享标签 Apollo、免疫系统、内部安全性、可解释性、后门植入、思维链技术发表评论

搜索

2025年 AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM MCP Meta OpenAI Python Sam Altman 人工智能人形机器人具身智能大型语言模型大模型大语言模型字节跳动开源强化学习微软扩散模型技术创新智能体木易机器学习深度学习清华大学生成式AI 用户体验百度腾讯自然语言处理英伟达谷歌阿里云阿里巴巴马斯克

分类

分享
国际
大模型
学术
开源
机器人
资讯

马斯克：Grok 4 将「改写」人类所有知识
蚂蚁集团频频出手具身智能，新投资宇树科技、钛虎、灵心巧手
英国研发出新型 “ 机器人皮肤 ” ，可用于人类假肢等需要触觉感知场景
Claude要挟人类只为活命！16大模型实测：受到威胁，敲诈勒索绝不犹豫
DeepSeek开源生态再下一城！DeepSite V2上线，一句话建网页、做动画、改样式

2025 年 6 月
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

« 5 月

归档

2025 年 6 月
2025 年 5 月
2025 年 4 月
2025 年 3 月
2025 年 2 月
2025 年 1 月
2024 年 12 月
2024 年 11 月

AI新闻 | X平台｜ APK反编译｜京ICP备2024096144号｜

© 2025 每时AI • Built with GeneratePress

下载我们的APP，AI秒送达！立即下载

×