量子位 | 公众号 QbitAI归档

10% KV Cache实现无损数学推理！这个开源方法解决推理大模型「记忆过载」难题

2025年6月16日16时作者量子位

R-KV团队发布了一种新的高效压缩方法，可以显著减少大模型推理时的冗余信息。该方法通过实时对token进行排序和重要性评估来保留关键且多样化的信息，并在计算开销适中的情况下实现了更高的准确率和吞吐量。

2025年6月9日16时作者量子位

谷歌发布的新款Veo 3-Fast模型可以在文生视频中添加‘360°’提示，生成具有3D环绕效果的视频。同时，该版本的价格比标准版便宜80%。

2025年5月30日16时作者量子位

新模型FLUX.1 Kontext能接受文本和图像输入，具备角色一致性、局部编辑等特性。它被用于生成与修改上下文相关的图像，并通过官方试玩平台Flux Playground提供两种型号供选择。

2025年5月22日23时作者量子位

字节跳动开源文档解析模型Dolphin，相比同类大模型提升2倍解析效率。其采用两阶段解析方法，先解析结构后内容，性能超越GPT-4.1等通用多模态和垂类OCR模型。

2025年5月11日16时作者量子位

ModelScope团队提出Nexus-Gen统一模型，融合MLMs和扩散模型能力，实现图像生成、理解与编辑。其技术细节包括预填充自回归策略和统一的数据格式定义。模型已在多个任务上取得GPT-4o级效果，并开源了训练数据、工程框架及论文。

2025年4月2日16时作者量子位

港理工和新加坡国立大学团队提出VideoMind框架，利用角色化推理和链式LoRA策略提高长视频理解能力。该框架已在多个基准测试中取得显著效果，并通过GitHub开源了代码、数据和模型参数。

2025年3月13日12时作者量子位

谷歌发布两款专为机器人打造的模型Gemini Robotics和Gemini Robotics-ER，使机器人能够理解并执行复杂指令，在物理世界中完成精细动作如折纸、系鞋带等，并且具有适应不同身体形态的能力。

2025年3月10日12时作者量子位

量子位报道：Zoom团队提出新方法‘草稿链’显著降低推理任务的延迟和成本，同时保持高准确率。通过为每个推理步骤生成简洁的中间结果，节省80%-90%的token使用量，并有望帮助企业每月节约数干美元成本。相关代码已开源。

2025年3月5日16时作者量子位

ChatGPT新Bug引发热议：无法画出‘有0头大象的房间’，随后出现的图中还是会出现实体大象。针对这一问题，新的AI产品如Grok 3和Gemini 2.0可以正常生成图片内容。OpenAI的内容过滤机制也引发了网友的关注，例如ChatGPT拒绝画玫瑰以及对特定提示词的处理方式。

2025年2月26日12时作者量子位

何恺明团队提出分形生成模型Fractal Generative Models，通过递归调用原子生成模块实现逐像素高分辨率图像生成。该模型从数据中学习递归法则，展示在材料、蛋白质等非序列数据建模中的潜力，并已开源代码。