OpenAI科学家:现有模型+后训练足以产生黎曼猜想的新证明

OpenAI科学家塞巴斯蒂安·布贝克提出AGI时间衡量模型能力,GPT-4可完成人类任务,o1可完成需数小时任务;汤姆·麦考伊质疑LLM解决复杂数学问题的能力受限。双方辩论围绕当前LLM局限性展开讨论,强调数据瓶颈、幻觉问题和缩放方法缺陷。

北大开源首个针对视频编辑的新指标,与人类感知高度对齐|AAAI25

北京大学MMCAL团队开发了首个用于视频编辑质量评估的新指标VE-Bench,并通过丰富且符合人类主观感受的数据集进行训练。该指标将视频的整体效果分成多个维度进行综合评价,包括文字-目标一致性、参考源与目标的关系、技术畸变和美学标准等多个方面。

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

DeepSeek-v3在Aider多语言编程测试排行榜中超越Claude 3.5 Sonnet至第一,同时被评为当前最强开源LLM。模型参数提升显著,结构变化包括使用sigmoid作为门控函数、引入新的Top-k选择方法和调整专家评分等。