字节开源高精度文档解析大模型Dolphin:轻量高效,性能超GPT4.1、Mistral-OCR!
字节跳动开源文档解析模型Dolphin,相比同类大模型提升2倍解析效率。其采用两阶段解析方法,先解析结构后内容,性能超越GPT-4.1等通用多模态和垂类OCR模型。
字节跳动开源文档解析模型Dolphin,相比同类大模型提升2倍解析效率。其采用两阶段解析方法,先解析结构后内容,性能超越GPT-4.1等通用多模态和垂类OCR模型。
ModelScope团队提出Nexus-Gen统一模型,融合MLMs和扩散模型能力,实现图像生成、理解与编辑。其技术细节包括预填充自回归策略和统一的数据格式定义。模型已在多个任务上取得GPT-4o级效果,并开源了训练数据、工程框架及论文。
港理工和新加坡国立大学团队提出VideoMind框架,利用角色化推理和链式LoRA策略提高长视频理解能力。该框架已在多个基准测试中取得显著效果,并通过GitHub开源了代码、数据和模型参数。
谷歌发布两款专为机器人打造的模型Gemini Robotics和Gemini Robotics-ER,使机器人能够理解并执行复杂指令,在物理世界中完成精细动作如折纸、系鞋带等,并且具有适应不同身体形态的能力。
量子位报道:Zoom团队提出新方法‘草稿链’显著降低推理任务的延迟和成本,同时保持高准确率。通过为每个推理步骤生成简洁的中间结果,节省80%-90%的token使用量,并有望帮助企业每月节约数干美元成本。相关代码已开源。
ChatGPT新Bug引发热议:无法画出‘有0头大象的房间’,随后出现的图中还是会出现实体大象。针对这一问题,新的AI产品如Grok 3和Gemini 2.0可以正常生成图片内容。OpenAI的内容过滤机制也引发了网友的关注,例如ChatGPT拒绝画玫瑰以及对特定提示词的处理方式。
何恺明团队提出分形生成模型Fractal Generative Models,通过递归调用原子生成模块实现逐像素高分辨率图像生成。该模型从数据中学习递归法则,展示在材料、蛋白质等非序列数据建模中的潜力,并已开源代码。
Grok-3发布仅三天便陷入作弊风波。OpenAI指责其使用cons@64评估模型,导致其表现被高估。尽管如此,Grok-3仍展示了其独特的能力和潜力,如快速开发小游戏等。