刚刚,沈向洋官宣通用视觉大模型!无需提示,就能识别万物

IDEA研究院最新成果DINO-X通用视觉大模型,在各种开发世界感知和目标理解任务中实现全面检测、泛化能力增强、细粒度目标理解和多任务感知,已在多个基准测试中获得新SOTA成绩。

DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

Janus团队提出了一种名为JanusFlow的新模型,该模型结合了预训练视觉编码器与MLM的方法以及基于Rectified Flow的生成框架,实现了统一的视觉理解和生成能力。通过将理解与生成任务分别配置专用编码器,并利用REPA方法加速生成训练,JanusFlow在多模态理解和生成任务上表现出色。

FLUX“官方版ControlNet”来了!景深轮廓更精准控制,共四款官方工具一齐上线

FLUX更新四款创意工具,包括fill、Canny、Depth和Redux。这些工具能够修改细节、扩展画面、控制景深,并让人物动作变化。开发者通过ComfyUI整合进绘图工作流。FLUX的官方和第三方工具在编辑任务中表现出色,优于Ideogram和SD 1.5。