PaperWeekly
AAAI 2025 川大提出首个基于介观表征的图像篡改检测新范式,定义IML任务SOTA新高度
Mesorch 模型首次提出从介观表征的角度融合非语义信息和语义信息,构建并行多尺度 CNN 与 Transformer 网络混合架构来提高图像篡改检测性能。
Github揽获1.6K星!南大、腾讯发布VITA-1.5: 迈向GPT-4o级实时视频-语音交互
近年来,多模态大语言模型(MLLMs)主要聚焦在视觉和文本模态的融合上,对语音的关注较少。然而,语音
登顶AndroidWorld!超越Claude 3.5,Aria-UI开启电脑与手机的智能操控新范式
Rhymes AI 与港大合作发布了 Aria-UI,这是一款专为 GUI 智能体 Groundin