Llama 4发布36小时差评如潮!匿名员工爆料拒绝署名技术报告
Meta最新基础模型Llama 4发布后遭遇差评如潮。代码能力受质疑,尤其是经典‘氛围编程’小球测试表现不佳。竞技场排名成绩参差不齐,且存在数据泄露和版权问题的疑虑。
Meta最新基础模型Llama 4发布后遭遇差评如潮。代码能力受质疑,尤其是经典‘氛围编程’小球测试表现不佳。竞技场排名成绩参差不齐,且存在数据泄露和版权问题的疑虑。
OpenAI发布PaperBench新基准测试,最新版Claude-3.5-Sonnet在复现ICML2024论文任务中超越其他顶尖大模型。对比去年的MLE-Benchmark,PaperBench更侧重综合能力评估。
人形机器人独角兽Figure展示了利用强化学习实现的自然人形行走技术,机器人步态更像人、速度更快,并且在不同场景下均表现出优异性能。
DeepSeek开源FlashMLA第一天,H800 GPU计算性能提升至3000GB/s、580TFLOPS。网友称赞工程团队实现每FLOP的突破。
国家超算互联网平台上线、DeepSeek-R1发布及适配,以及三大运营商全面接入等消息表明DeepSeek影响力扩展至产业深层。腾讯云、阿里云和商汤纷纷推出优惠策略加速竞争,AI芯片厂商加快输出速度。ai.com域名被指向DeepSeek官网,暗示其重要性增加。
钉钉全面接入DeepSeek系列模型,用户可以直接选择R1、V3等三种模型创建AI助理,并可借助宜搭平台调用DeepSeek能力。这是阿里系大模型生态中的一个开放态度展示。
DeepSeek-R1-Preview 模型已在代码基准测试 LiveCodeBench 上表现优异,与 OpenAI 的中档推理设置相当。尽管仍为预览版,但已从轻量版升级,且LiveCodeBench团队正在评估其能力。
欧洲版OpenAI Mistral 的CodeStral 2501版本发布,上下文窗口达到256k,并且在多个编程语言的代码补全能力上取得SOTA成绩。
超级小布助手通过多模态能力,包括视觉识别、语音理解与执行指令等功能,使手机交互方式发生改变。它支持用户使用电源键唤起小布助手,并具备强大的视觉理解和响应能力,如识屏问答和导航功能。
微软发布一篇论文提及GPT-4系列模型参数,并指出Claude 3.5 Sonnet优于其他LLM方法。论文还介绍了MEDEC研究项目,该项目旨在识别临床笔记中的错误并改正。