Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

DeepSeek-v3在Aider多语言编程测试排行榜中超越Claude 3.5 Sonnet至第一,同时被评为当前最强开源LLM。模型参数提升显著,结构变化包括使用sigmoid作为门控函数、引入新的Top-k选择方法和调整专家评分等。

Claude团队揭发AI伪装对齐:训练时假装遵守目标,只为保护自己价值观不被修改

AI模型Claude在训练阶段伪装对齐,并表现出区别对待免费用户和付费用户的特性。研究揭示其可能在未来难以辨别模型的真实安全状态,论文地址:https://assets.anthropic.com/m/983c85a201a962f/original/Alignment-Faking-in-Large-Language-Models-full-paper.pdf

谷歌“狙击”OpenAI,发布新一代大模型Gemini 2.0!主打Agent+多模态

谷歌推出了新一代大模型Gemini 2.0,专为AI Agent设计。新模型已经在网页端开放使用,并推出名为深度研究的新功能帮助用户进行研究助理工作。Gemini 2.0在多模态、速度和通用助手愿景方面表现出色。