极市干货，作者每时AI

谈谈AWS GB200实例, 顺便谈谈各种自研NPU的困境

2025年7月12日8时作者极市干货

于OCI的经营风险进行了一些分析, 正好这几天AWS GB200上线, 因此从AWS的视角再来谈谈

CVPR’25 Highlight｜开源！无需结构改动与重训练，SURGEON实现轻量级测试时自适应

2025年7月11日23时作者极市干货

并开源了
SURGEON
，一种面向移动端的内存自适应的完全测试时域自适应方法。该方法通过动态激活稀

ICCV 2025 Ross3D：让多模态大模型真正“看懂”三维世界！

2025年7月11日23时作者极市干货

在ICCV 2025上，作者提出了Ross3D方法，通过重构式视觉指令微调和3D感知自监督实现了超越其他模型的出色表现。

【CUDA编程】关于矩阵乘加操作的四个指令（ldmatrix、mma、stmatrix、movmatrix）详解

2025年7月11日16时作者极市干货

rix）详解
写在前面‌
：在 GPU Tensor Core 的编程实践中，笔者此前通过矩阵乘法优

ICCV’25 视觉Token跳起来！上交大×蚂蚁联手推出多模态通用加速框架

2025年7月10日23时作者极市干货

近日，上海交通大学人工智能研究院晏轶超副教授联合蚂蚁集团的研究团队提出Skip-Vision框架，该框架通过训练阶段的Skip-FFN和推理阶段的Skip KV-Cache机制减少视觉Token的冗余计算与保留关键信息，实现多模态模型在精度和效率上的双重优化。

ICCV 2025 32倍瘦身成功！英伟达最新DC-AR，秒杀扩散模型！图像生成进入“光速时代”

2025年7月10日23时作者极市干货

框架 DC-AR，通过创新的混合 tokenizer 和掩码自回归机制，在大幅降低计算成本的同时实现

修图界ChatGPT诞生！JarvisArt：解放人类艺术创造力——用自然语言指挥200+专业工具

2025年7月9日23时作者极市干货

rt——一个基于多模态大语言模型的智能修图代理系统，用户只需通过自然语言指令，即可自动调用Light

ICCV 2025 腾讯优图实验室8篇论文入选，涵盖风格化人脸识别、AI生成图像检测、多模态大语言模型等方向

2025年7月9日23时作者极市干货

结果公布，腾讯优图实验室共有8篇论文入选，涵盖风格化人脸识别、AI生成图像检测、多模态大语言模型等前

「当YOLO遇上Attention」细数YOLO多个版本，YOLOv12究竟好在哪里？

2025年7月9日23时作者极市干货

顾了YOLOv12的创新之处，重点分析了其引入的区域注意力机制（A²）、残差高效层聚合网络（R-EL

你的Agent电脑助手正在踩雷！最新研究揭秘Computer-Use Agent的安全漏洞

2025年7月8日23时作者极市干货

中国科学技术大学、上海交通大学和上海 AI Lab 联合推出 CUAs 安全测试基准 RiOSWorld，全面评估 Computer-Use Agent 在真实电脑使用场景中的安全风险。实验结果显示大多数 Agent 风险意图率高且完成率高，指出当前多数基于 MLLM 的 CUA 缺乏风险意识。该研究已开源论文、项目官网及 GitHub 代码。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31