消融实验
解决Diffusion Transformers优化困境!南京大学与字节等提出DDT:解耦扩散模型
oder Transformer 能否加速收敛并增强样本质量?
>>
加入极市CV技术交流群,走在计
CVPR 2025 拿下多个第一!MonSter:双目深度估计大模型
本文介绍了一种用于双目深度估计的大模型MonSter,通过结合单目深度估计和立体匹配的互补优势,在五个常用基准测试上均达到SOTA水平,并展现出强大的泛化性能。
90分钟生成10万Token,新框架实现3倍无损加速超长文本生成,支持DeepSeek-R1和QwQ!
大语言模型生成10万Token文本,TOKENSWIFT框架将时间缩短至90分钟。该框架通过多Token并行生成、动态KV缓存管理及树结构的多候选Token验证等创新技术,实现了无损加速和文本多样性提升,并在多个规模和架构上进行了测试。
阿里Qwen2.5-1M开源,仅320G可推理14B百万token
阿里千问开源了Qwen 2.5-1M模型及其对应的推理框架,支持百万Token上下文处理,并分享了训练和推理框架的设计细节及消融实验结果。
视频任意门来了!港大&达摩院新作VideoAnydoor:向视频无缝传送物体,同时支持准确动作控制
↑ 点击
蓝字
关注极市平台
作者丨CVer粉丝投稿
来源丨CVer
编辑丨极市平台
极市导读
香港