消融实验
90分钟生成10万Token,新框架实现3倍无损加速超长文本生成,支持DeepSeek-R1和QwQ!
大语言模型生成10万Token文本,TOKENSWIFT框架将时间缩短至90分钟。该框架通过多Token并行生成、动态KV缓存管理及树结构的多候选Token验证等创新技术,实现了无损加速和文本多样性提升,并在多个规模和架构上进行了测试。
阿里Qwen2.5-1M开源,仅320G可推理14B百万token
阿里千问开源了Qwen 2.5-1M模型及其对应的推理框架,支持百万Token上下文处理,并分享了训练和推理框架的设计细节及消融实验结果。
视频任意门来了!港大&达摩院新作VideoAnydoor:向视频无缝传送物体,同时支持准确动作控制
↑ 点击
蓝字
关注极市平台
作者丨CVer粉丝投稿
来源丨CVer
编辑丨极市平台
极市导读
香港
ICLR 惊现[10,10,10,10]满分论文,ControlNet 作者新作,Github 5.8k 颗星
机器之心报道
编辑:佳琪、蛋酱
四个 10 分!罕见的一幕出现了。
您正在收看的,不是中国梦之队的跳