AGI Hunt
AI 挑战天花板ARC-AGI-2 发布,顶流o3 模型也只能拿5分!
ARC Prize公布了全新AGI测试基准,当前行业TOP模型在纯LLM大模型方面表现仅得0分。ARC-AGI-2测试聚焦符号解释能力、组合推理能力和上下文规则应用三大软肋,并引入费用效率指标。比赛奖金丰厚,旨在鼓励研究人员突破挑战,打造AGI的「北极星」指标。
Attention is NOT all you need!这个「去Transformer」的玩意直接把我整懵了!
就训练出
一个
完全不用Transformer注意力
的
72B大模型,性能竟超越GPT 3.5?!
重磅!AI 挑战天花板ARC-AGI-2 发布,顶流o3 模型也只能拿5分!
中午刷推时看到ARC Prize公布了全新AGI测试基准,当前行业TOP模型表现不佳。ARC-AGI-2测试瞄准了当前AI模型的三大软肋:符号解释能力、组合推理能力和上下文规则应用。通过该比赛,激励研究人员突破现有挑战,提升新技能获取效率。
每月薅马斯克150美金的羊毛,你居然不知道?
每月白送150美元的API调用福利被很多人忽视。只需充值5美元,即可获得150美元额度。通过注册账号、设置支付信息、充值、创建API密钥并激活数据共享等步骤,轻松薅羊毛。
重磅!Claude Code 八大升级,开发者狂欢!却有一个致命问题?
Anthropic的Claude Code迎来8项新功能升级,包括「Extended thinking」增强思考能力、Vim模式编辑体验、自定义斜杠命令工作流自动化、自动接受模式减少确认步骤等。但成本高成为主要痛点之一,用户呼吁降低成本。