越狱攻击归档

深夜突袭！谷歌Gemini 2.5 Pro更新蝉联榜一：推理超越o3，编程超越opus4

2025年6月6日23时作者机器之心

05）。
在保持 o3 四分之一以下的低价格的同时，在编码（Aider Polyglot）、推理能力

2025年5月22日16时作者 PaperWeekly

arn
—— 一种
将数据增强与模型微调相结合的高效知识遗忘框架
。
论文题目：
ReLearn:

2025年2月17日16时作者新智元

后约48小时内，无人完全攻破新系统，将赏金提高到了最高2万美元。新方法真这么强？
最近，Anthro

2025年2月11日16时作者机器之心

香港科技大学等团队提出SelfDefend框架，让大语言模型首次具备自我保护能力，有效抵御越狱攻击。该框架通过创建并行的影子LLM来检测潜在有害查询，并在不影响正常响应的情况下提升安全性。

2024年12月19日14时作者机器之心

选自blog.ml.cmu
作者：Alex Robey
机器之心编译
机器之心编辑部
具身智能，也和