CoT
ACL 2025|为什么你设计的 Prompt 会成功?新理论揭示大模型 Prompt 设计的奥秘与效能
r Science;曹峻泰是英属哥伦比亚大学研究生,主要研究兴趣集中在大模型推理和可解释性研究;本文
AI生成视频总不符合物理规律?匹兹堡大学团队新作PhyT2V:不重训练模型也能让物理真实度狂飙2.3倍!
团队完成。第一作者为匹兹堡大学的一年级博士生薛琪耀。
当前文本生成视频(T2V)技术正在从注重视觉质
最强o1也刚刚及格!中科大等团队测试视频CoT推理能力:多数模型不及格
中科大等团队提出VCR-Bench评估基准,用于评价视频理解中的CoT推理能力。该基准包含七个独立评估维度的任务框架,覆盖视觉感知和逻辑推理两大类别。结果显示当前多模态模型在复杂视频推理任务上表现不佳,最优模型仅获得62.8的CoT得分和56.7%的准确率。
过程奖励模型也可以测试时扩展?清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o
清华大学刘润泽等人提出生成式过程奖励模型GenPRM,通过思维链推理和代码验证增强大语言模型的推理能力。仅23K训练样本就取得了优异性能,展示了测试时扩展在提升小模型表现上的潜力。
图像生成推理大模型,港中文北大等联手破解画质提升难题
来自港中文、北大和上海AI Lab的研究团队将思维链(CoT)与生成模型结合,显著提高了自回归图像生成的质量,并提出了潜力评估奖励模型(PARM)及其增强版本(PARM++),进一步优化了图像生成质量。