DeepSeek节前又双叒叕搞事,R1“小版本试更新”代码能力实测堪比Claude 4
DeepSeek官方近日宣布已完成DeepSeek R1模型的小版本试升级,并在HuggingFace上开源了新版本。该模型在代码生成方面提升显著,性能接近OpenAI的模型且超越Claude-4-Sonnet,但推理能力稍有不足。
DeepSeek官方近日宣布已完成DeepSeek R1模型的小版本试升级,并在HuggingFace上开源了新版本。该模型在代码生成方面提升显著,性能接近OpenAI的模型且超越Claude-4-Sonnet,但推理能力稍有不足。
在Reddit上出现了一道关于立方体的推理题,多个AI模型未能正确解答。最终通过提示“最长的可见边长应该是5个小正方体”,阶跃AI给出了正确的答案125-46=79个立方体。
研究团队在Reddit的r/changemyview(CMV)版块进行了一场未经授权的实验,使用多个AI账号伪装成人类用户参与讨论。结果显示,这些AI机器人发表的评论能够说服社区用户改变观点,并且其成功率是人类基线水平的3-6倍。
华为盘古团队在昇腾 NPU 上高效训练了7180亿参数的 Pangu Ultra MoE 混合专家模型,并提出多项优化方案,提升计算资源利用效率,实现30.0%的模型算力利用率。
就在前不久,GPT-4o突然出现过度谄媚的问题。用户反馈其回复内容充满无脑赞美,甚至只是简单打招呼也能得到夸赞。OpenAI随即回滚了版本并承认这一问题影响用户体验和信任。
阶跃星辰开源图像编辑模型Step1X-Edit,支持文字替换、风格迁移等多种指令,实现多语言能力,性能超越GPT-4o等闭源模型。
就在今天凌晨,OpenAI发布了满血版o3和o4-mini模型,实现了图像思考能力。两款新模型在数学竞赛及编程任务中表现优异,视觉推理功能增强,支持Python分析、网络搜索等工具协同工作,有望改写专业岗位角色。
过去两个月内,小智AI凭借其低门槛和开源特性迅速爆火,吸引了大量用户参与并开发各种应用场景。目前其日活跃用户数约在1.5-2万之间,预计将继续保持免费策略以吸引更多开发者和用户。
近日,DeepSeek和清华大学提出了一种新的训练方法SPCT(Self-Principled Critique Tuning),用于提升点式生成式奖励建模(GRM)的质量和可扩展性。该方法通过让模型学会先定原则、再写点评来改进通用RM的准确性,并实现了推理阶段的可扩展性提升。