AI理解27分钟长视频超越GPT-4o,港理工新国立开源新框架:角色化推理+链式LoRA

港理工和新加坡国立大学团队提出VideoMind框架,利用角色化推理和链式LoRA策略提高长视频理解能力。该框架已在多个基准测试中取得显著效果,并通过GitHub开源了代码、数据和模型参数。

“谷歌版DeepSeek”接入机器人,思维链解锁折纸系鞋带技能,推理模型代入物理世界

谷歌发布两款专为机器人打造的模型Gemini Robotics和Gemini Robotics-ER,使机器人能够理解并执行复杂指令,在物理世界中完成精细动作如折纸、系鞋带等,并且具有适应不同身体形态的能力。

草稿链代替思维链,推理token砍掉80%,显著降低算力成本和延迟

量子位报道:Zoom团队提出新方法‘草稿链’显著降低推理任务的延迟和成本,同时保持高准确率。通过为每个推理步骤生成简洁的中间结果,节省80%-90%的token使用量,并有望帮助企业每月节约数干美元成本。相关代码已开源。

一头大象难倒ChatGPT,Grok 3完美通关

ChatGPT新Bug引发热议:无法画出‘有0头大象的房间’,随后出现的图中还是会出现实体大象。针对这一问题,新的AI产品如Grok 3和Gemini 2.0可以正常生成图片内容。OpenAI的内容过滤机制也引发了网友的关注,例如ChatGPT拒绝画玫瑰以及对特定提示词的处理方式。

何恺明开辟分形图像生成新范式!计算效率提高4000倍,首次实现高分辨率逐像素生成

何恺明团队提出分形生成模型Fractal Generative Models,通过递归调用原子生成模块实现逐像素高分辨率图像生成。该模型从数据中学习递归法则,展示在材料、蛋白质等非序列数据建模中的潜力,并已开源代码。