阿里、中科大等提出ExecRepoBench:仓库级可执行代码补全新基准
本文提出ExecRepoBench,一个面向仓库级代码补全的新测试基准,并设计了基于抽象语法树的多层次代码遮掩方法用于构造指令微调数据集Repo-Instruct。基于该数据集训练的Qwen2.5-Coder-Instruct-C模型在多项基准测试中表现优异。
本文提出ExecRepoBench,一个面向仓库级代码补全的新测试基准,并设计了基于抽象语法树的多层次代码遮掩方法用于构造指令微调数据集Repo-Instruct。基于该数据集训练的Qwen2.5-Coder-Instruct-C模型在多项基准测试中表现优异。
近期研究提出自回归移动扩散(ARMD)模型,该模型重新定义了时间序列的扩散过程,通过滑动操作和历史序列迭代生成未来序列预测。相较于传统基于噪声的方法,ARMD更好地模拟了时间序列的连续性演化特性,展示了在多个数据集上的优越性能。
研究团队提出MARVEL数据集来评估多模态大语言模型的抽象视觉推理能力,该数据集中包含了770个高质量测试样例,并覆盖了六种核心知识模式、多样化的几何和抽象形状输入以及五种不同的任务配置方式。实验结果显示大多数模型在MARVEL上的表现接近随机水平,揭示出模型的视觉感知能力是提升其抽象视觉推理的关键瓶颈。
最近提出的方法通过在短时间内微调插入位置编码(PE)来有效地扩展预训练 LLM 的上下文窗口。然而,现有的方法仍存在两个显著的局限性:需要对目标长度进行微调,并且难以有效利用来自上下文中间部分的信息。为了解决这些问题,本文提出了 CREAM 方法,通过操纵位置索引来生成较短序列,在保持高效的同时增强模型在处理“中间”内容时的有效性。