AI模仿人类看漫画,视频大模型时序定位能力新SOTA
NumPro通过为视频帧添加数字标识符的方式提升了视频大模型的时序定位能力。无需训练设置即可增强模型对事件发生时刻的理解,实验结果显示其显著优于现有方法,并且不影响模型通用视频理解能力。
NumPro通过为视频帧添加数字标识符的方式提升了视频大模型的时序定位能力。无需训练设置即可增强模型对事件发生时刻的理解,实验结果显示其显著优于现有方法,并且不影响模型通用视频理解能力。
法国国家科学研究中心和香港大学的研究人员提出了一种基于柔性磁膜的触觉传感器,该传感器能够实现三维力的自解耦。通过设计正交磁化的Halbach阵列,可以简化传感器结构并降低标定复杂度,为低成本的三维力触觉传感提供了新思路。
新加坡国立大学团队测试发现,AI系统Claude可以在多个场景下自动完成任务,包括玩手游、购物下单、办公自动化等。Claude不仅能操作GUI界面,还能理解游戏规则并调整策略,展示了其在多种任务中的强大能力。论文还提出了一种开箱即用的自动GUI框架。
MagicQuill是一款AI图像编辑工具,无需写提示词就能理解用户画笔意图并编辑图片细节。它提供了加法、减法和颜色画笔三种功能,支持本地部署或在线使用。MagicQuill通过扩散模型和多模态大语言模型实现,让普通用户也能轻松使用AI进行图片编辑。
黄仁勋在港科大荣誉博士学位授予仪式上演讲,并强调香港科技大学的重要地位和贡献。他表示人工智能正在改变科学领域,推动了全球的发展,并鼓励毕业生们迎接未来的机会。
阿里开源Marco-o1,旨在解决缺乏明确标准且奖励难以量化的开放式问题。Marco-o1结合链式思考、蒙特卡洛树搜索等技术增强推理能力,在MGSM上提高了准确性,并展示了扩展解决方案空间和利用更细粒度动作策略的优势。
Anthropic与AWS加强合作,共同开发Trainium AI芯片。Claude模型成为企业核心基础设施,驱动业务需求的定制化AI解决方案。双方还构建了安全可靠的平台,支持政府及其他行业用户的应用和发展。