视觉定位新范式!清华团队推出Migician,支持任意形式多图定位 上午8时 2025/02/22 作者 量子位 由单张图像拓展至多图像应用场景。 比如,在复杂的相册中自动识别出Luigi并在第二张图中找到他,或
27页综述,354篇参考文献!最详尽的视觉定位综述来了 下午4时 2025/01/31 作者 机器之心 AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000
354篇参考文献!史上最详尽综述:视觉定位任务十年发展系统性回顾 下午4时 2025/01/22 作者 PaperWeekly 本综述系统性回顾了视觉定位(Visual Grounding)任务过去十年的发展历程,涵盖多种设置如全监督、弱监督、半监督等,并分析了各种数据集的表现。
27页超详尽综述!系统性回顾视觉定位任务十年发展 下午11时 2025/01/21 作者 极市干货 视觉定位任务十年发展系统性回顾,涵盖传统、基于VLP和MLLM的设置,并总结了全监督、无监督、弱监督、半监督、零样本及广义定位等新型设置。