基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传 下午4时 2025/05/29 作者 量子位 过明确的 “长度指令” ? 比如,“写一篇10,000字的长文,详细分析某个议题。”看似简单的要求,
微软原WizardLM团队:代码大模型WarriorCoder,性能新SOTA 下午12时 2025/03/02 作者 机器之心 多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,
多模态大模型对齐新范式,10个评估维度全面提升,快手&中科院&南大打破瓶颈 下午12时 2025/02/26 作者 量子位 显著的进展,但现有的先进模型仍然缺乏与人类偏好的充分对齐。这一差距的存在主要是因为现有的对齐研究多集