上下文长度
谷歌发布BIG-Bench超难基准:DeepSeek-R1得分6.8,只有o3-mini超过10分
近日,谷歌发布了一项高难度基准BIG-Bench Extra Hard(BBEH),旨在评估AI模型的高阶推理能力。该基准包含了23个任务,并将每个任务替换为更难的任务,覆盖更多方面的技能需求。如o3-mini (high)得分为44.8分不及格,而其它模型得分不超过10分。
实测华为小艺版 DeepSeek,和满血版 R1 有差别吗?
春节期间DeepSeek大放异彩,华为将其集成到智能手机,性能有待提升。对比官方应用和ChatGPT,其在道德伦理、逻辑数学方面表现一般,在中文写作任务中表现出色但口语化不足。上下文长度及回答准确性仍需优化。
阿里Qwen2.5-1M开源,仅320G可推理14B百万token
阿里千问开源了Qwen 2.5-1M模型及其对应的推理框架,支持百万Token上下文处理,并分享了训练和推理框架的设计细节及消融实验结果。
阿里发布Qwen2.5-Turbo,支持100万Tokens上下文!
专注AIGC领域的专业社区报道了阿里发布Qwen2.5-Turbo版本,其上下文长度从128K扩展至100万tokens,显著提升处理复杂长文本能力,并在保持价格不变的情况下实现了4.3倍的推理速度提升。