DeepSeek节前又双叒叕搞事,R1“小版本试更新”代码能力实测堪比Claude 4
DeepSeek官方近日宣布已完成DeepSeek R1模型的小版本试升级,并在HuggingFace上开源了新版本。该模型在代码生成方面提升显著,性能接近OpenAI的模型且超越Claude-4-Sonnet,但推理能力稍有不足。
DeepSeek官方近日宣布已完成DeepSeek R1模型的小版本试升级,并在HuggingFace上开源了新版本。该模型在代码生成方面提升显著,性能接近OpenAI的模型且超越Claude-4-Sonnet,但推理能力稍有不足。
在Reddit上出现了一道关于立方体的推理题,多个AI模型未能正确解答。最终通过提示“最长的可见边长应该是5个小正方体”,阶跃AI给出了正确的答案125-46=79个立方体。
研究团队在Reddit的r/changemyview(CMV)版块进行了一场未经授权的实验,使用多个AI账号伪装成人类用户参与讨论。结果显示,这些AI机器人发表的评论能够说服社区用户改变观点,并且其成功率是人类基线水平的3-6倍。
华为盘古团队在昇腾 NPU 上高效训练了7180亿参数的 Pangu Ultra MoE 混合专家模型,并提出多项优化方案,提升计算资源利用效率,实现30.0%的模型算力利用率。
就在前不久,GPT-4o突然出现过度谄媚的问题。用户反馈其回复内容充满无脑赞美,甚至只是简单打招呼也能得到夸赞。OpenAI随即回滚了版本并承认这一问题影响用户体验和信任。
阶跃星辰开源图像编辑模型Step1X-Edit,支持文字替换、风格迁移等多种指令,实现多语言能力,性能超越GPT-4o等闭源模型。
就在今天凌晨,OpenAI发布了满血版o3和o4-mini模型,实现了图像思考能力。两款新模型在数学竞赛及编程任务中表现优异,视觉推理功能增强,支持Python分析、网络搜索等工具协同工作,有望改写专业岗位角色。
OpenAI发布GPT-4.1系列新模型,包含多模态能力并提升多项性能指标。相比GPT-4o,GPT-4.1在指令跟随、编码和图像理解方面表现更优,并且价格更具竞争力。
Kimi团队发布开源的Kimi-VL和Kimi-VL-Thinking多模态模型,参数量分别为28亿激活参数和2.8B。模型在多个基准测试中表现出色,并采用MoE架构提高效率。