AI理解27分钟长视频超越GPT-4o,港理工新国立开源新框架:角色化推理+链式LoRA
港理工和新加坡国立大学团队提出VideoMind框架,利用角色化推理和链式LoRA策略提高长视频理解能力。该框架已在多个基准测试中取得显著效果,并通过GitHub开源了代码、数据和模型参数。
港理工和新加坡国立大学团队提出VideoMind框架,利用角色化推理和链式LoRA策略提高长视频理解能力。该框架已在多个基准测试中取得显著效果,并通过GitHub开源了代码、数据和模型参数。
谷歌发布两款专为机器人打造的模型Gemini Robotics和Gemini Robotics-ER,使机器人能够理解并执行复杂指令,在物理世界中完成精细动作如折纸、系鞋带等,并且具有适应不同身体形态的能力。
量子位报道:Zoom团队提出新方法‘草稿链’显著降低推理任务的延迟和成本,同时保持高准确率。通过为每个推理步骤生成简洁的中间结果,节省80%-90%的token使用量,并有望帮助企业每月节约数干美元成本。相关代码已开源。
ChatGPT新Bug引发热议:无法画出‘有0头大象的房间’,随后出现的图中还是会出现实体大象。针对这一问题,新的AI产品如Grok 3和Gemini 2.0可以正常生成图片内容。OpenAI的内容过滤机制也引发了网友的关注,例如ChatGPT拒绝画玫瑰以及对特定提示词的处理方式。
何恺明团队提出分形生成模型Fractal Generative Models,通过递归调用原子生成模块实现逐像素高分辨率图像生成。该模型从数据中学习递归法则,展示在材料、蛋白质等非序列数据建模中的潜力,并已开源代码。
Grok-3发布仅三天便陷入作弊风波。OpenAI指责其使用cons@64评估模型,导致其表现被高估。尽管如此,Grok-3仍展示了其独特的能力和潜力,如快速开发小游戏等。