深度学习归档 - 第5页共19页

仅看视频就能copy人类动作，宇树G1分分钟掌握100+，UC伯克利提出机器人训练新方式

2025年5月8日16时作者量子位

UC伯克利团队研发的新系统VideoMimic能够通过视频训练机器人模仿人类动作，已成功让宇树G1机器人学会多种复杂动作。系统利用深度相机和IMU等传感器获取环境信息及机器人姿态，并将这些数据作为策略模型的输入进行实时推理控制。

被拒稿11年后翻盘获时间检验奖，DSN作者谢赛宁：拒稿≠学术死刑

2025年5月6日16时作者量子位

谢赛宁十年前被NeurIPS拒收的论文《Deeply-Supervised Nets》（DSN）今年获AISTATS时间检验奖。该论文提出中间层监督思想，继承并发展了后续作品REPA和U-REPA，对计算机视觉领域产生了深远影响。

突发！曝阿里通义薄列峰离职，此前为应用视觉团队负责人

2025年5月6日16时作者量子位

阿里通义实验室高层薄列峰离职，加入某互联网大厂担任多模态模型部副总经理。此前，通义实验室已有两位核心负责人鄢志杰和黄非离职。薄列峰曾带领团队开发了通义App上的爆款功能。

入选CVPR 2025，哈工大团队提出分层蒸馏多示例学习框架HDMIL，快速处理千兆像素病理全切片图像

2025年5月6日11时作者 HyperAI超神经

授和张永兵教授团队，创新提出一种分层蒸馏多示例学习框架
HDMIL，旨在快速识别不相关的 patch

RAG检索系统的两大核心利器——Embedding模型和Rerank模型

2025年5月4日14时作者 AI探索时代

在RAG系统中，Embedding和Rerank模型是核心组成部分。前者将文本转化为低维向量以捕捉语义信息；后者则用于对候选结果进行重排序，提升其相关性。

中科大等放出的一款视频画面增强模型：Ev-DeblurVSR

2025年4月26日8时作者 NLP工程化

中科大等发布视频画面增强模型Ev-DeblurVSR，具备去模糊和超分辨率功能，可提升运动视频清晰度与老旧视频质量。

利用人工智能将代码库变成教程

2025年4月21日8时作者 NLP工程化

利用Pocket Flow将GitHub代码库转化为易于初学者理解的教程项目介绍。

CVPR 2025 双目匹配新突破！DEFOM-Stereo高效利用单目深度基础模型

2025年4月20日23时作者 PaperWeekly

本文介绍了一种基于深度基础模型的循环双目匹配框架DEFOM-Stereo，该框架利用Depth Anything V2的强大预训练ViT和随机初始化的CNN构建联合编码器，并设计了用于单目视差初始化、尺度更新的方法。实验结果表明，在仿真域到真实域的零样本泛化上以及在线Benchmark中均表现优异。

独立投资人的崛起：AI如何改变资本规则？

2025年4月19日14时作者硅谷科技评论

极低的边际成本和超强执行力，在短时间内打造出爆款产品，印证了“
独立创始人
”的时代命题。而在他们背

YYDS，哈工大博士的pytorch笔记终终终于公开了！！

2025年4月18日14时作者老刘说NLP

PyTorch作为深度学习框架之一受到广泛欢迎，本文推荐了一份包含超200个常用函数的PDF手册，并提供视频学习资料，覆盖神经网络训练和设计等内容。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31