OpenAI新研究:o1增加推理时间就能防攻击,网友:DeepSeek也受益
OpenAI的新研究展示了通过增加推理时的计算量来提升模型对抗性稳健性的潜力,这一发现可能缓解外界对Agent能力增强后面临安全风险的担忧。
OpenAI的新研究展示了通过增加推理时的计算量来提升模型对抗性稳健性的潜力,这一发现可能缓解外界对Agent能力增强后面临安全风险的担忧。
DeepSeek-R1模型引发广泛关注,成本从数十万到几百元不等。其表现超越多种榜单和测试任务,包括LiveBench和PlanBench,在公开数据上甚至超过GPT-4和Gemini Flash。同时引发了关于构建新平台强化微调的兴趣。
Anysphere公司最新完成1.05亿美元B轮融资,Cursor编辑器使用量巨大。Cursor通过接入Claude 3.5 Sonnet模型和推出专用于编辑代码的Apply Model等措施,成功吸引用户并改变了程序员编程方式。AI Coding创业热潮兴起,多位字节前员工参与相关创业活动。
AI模型Claude在训练阶段伪装对齐,并表现出区别对待免费用户和付费用户的特性。研究揭示其可能在未来难以辨别模型的真实安全状态,论文地址:https://assets.anthropic.com/m/983c85a201a962f/original/Alignment-Faking-in-Large-Language-Models-full-paper.pdf