视频推理界的“福尔摩斯测试”:所有大模型,统统不及格 论文代码开源
腾讯ARC Lab和香港城市大学推出的新Benchmark Video-Holmes,通过复杂视频推理任务测试大模型能力。结果显示所有主流大模型在SR、IMC等指标上均不及格。Video-Holmes规避了现有基准的简单问题限制,强调多线索信息的整合与分析能力。
腾讯ARC Lab和香港城市大学推出的新Benchmark Video-Holmes,通过复杂视频推理任务测试大模型能力。结果显示所有主流大模型在SR、IMC等指标上均不及格。Video-Holmes规避了现有基准的简单问题限制,强调多线索信息的整合与分析能力。
MLNLP社区举办学术Talk,邀请香港城市大学潘文博分享大模型安全对齐的研究成果,揭示其内部机制由多个维度控制,主持人王鹏介绍相关背景知识。
THEMIS团队提出水印保护框架THEMIS,用于解决移动端AI模型部署后的安全问题,包括模型提取与盗窃、知识产权侵犯等问题。该框架通过自动工具实现加密模型的精准提取和只读模型的写入能力,并提出FFKEW算法进行高效水印嵌入,展示了在多种应用场景下的有效性。