关注我,记得标星⭐️不迷路哦~
✨ 1: GPT-image-1
GPT-image-1 是 OpenAI 最新、最先进的图像生成模型。它是一个原生的多模态语言模型,于今天凌晨1点30通过 API 向全球开发者开放使用。

与 ChatGPT 版本有很大不同,通过 API 使用 GPT-image-1 可以进行更多高级定制,包括控制生成图像的敏感度、生成效率、背景、输出格式、渲染质量、压缩质量等。该模型还支持全网流行的“吉卜力模式”。
GPT Image 模型以其高质量的图像生成能力、在图像创作中使用世界知识的能力、卓越的指令遵循能力、文本渲染能力以及详细的编辑能力而受到推荐。
目前,Adobe、Figma、HeyGen、Wix 等知名企业已经将该模型集成到其产品中。例如,Adobe 将其集成到 Firefly 和 Express 应用中提供不同类型的图片风格,Figma 使用它帮助设计师快速获取想法并进行视觉迭代,Photoroom 正在使用它帮助在线卖家创建工作室品质的视觉效果。
为了确保模型的负责任使用,您可能需要完成 API Organization Verification。OpenAI 对新模型的 API 使用了全新的身份验证。如果无法通过验证,可以使用微软的 Azure 云服务进行体验。
API 端点与功能
Image API 为 GPT-image-1 提供了两个主要的端点,每个端点都有不同的功能:
- Generations (生成)
:从头开始根据文本提示生成图像。可以通过设置 n
参数,在单个请求中一次生成多张图像 (默认为返回一张图像)。 - Edits (编辑)
:修改现有图像。这包括: -
使用新的提示部分或完全修改现有图像。 -
使用一张或多张现有图像作为参考来生成新图像。例如,可以使用四张单图直接合成一张完整的礼品图像。 -
通过上传图像和掩码 (mask) 来编辑图像的特定部分,这被称为蒙版编辑 (inpainting)。掩码的透明区域将被替换,而黑色区域将被保留。在提供掩码时,提示词应描述完整的最终图像,而不仅仅是擦除的区域. 图像和掩码必须格式和大小相同 (小于 25MB),并且掩码图像必须包含 alpha 通道. 可以通过编程方式为黑白掩码添加 alpha 通道.
定制化输出选项
您可以通过 API 配置以下输出选项,以定制图像的生成:
- Size (尺寸)
:图像尺寸。可用尺寸包括 1024x1024
(方形)、1536x1024
(纵向)、1024x1536
(横向)。默认为1024x1024
. 方形图像和标准质量的生成速度最快。 - Quality (质量)
:渲染质量。可用选项包括 low
(低)、medium
(中)、high
(高)。默认为auto
. 透明背景功能在设置为medium
或high
质量时效果最佳。 - Format (格式)
:文件输出格式。Image API 返回 base64 编码的图像数据。默认格式是 png
,但也可以请求jpeg
或webp
. - Compression (压缩)
:对于 jpeg
和webp
格式,可以指定output_compression
参数控制压缩级别 (0-100%). - Background (背景)
:透明或不透明。 gpt-image-1
模型支持透明背景。要启用透明度,需要将background
参数设置为transparent
。透明背景仅支持png
和webp
输出格式。
图像输出每 100 万 token 的成本为 40 美元。在实际使用中,低质量的 1024×1024 图像生成成本大约为每张 0.02 美元,中等质量的图像约为每张 0.07 美元,而高质量图像则约为每张 0.19 美元。
地址:https://platform.openai.com/docs/guides/image-generation?image-generation-model=gpt-image-1
✨ 2: InstantCharacter
InstantCharacter通过扩散Transformer框架,仅用单张图片即可个性化角色生成,支持多种下游任务。

InstantCharacter 是一种无需微调的创新方法,它基于扩散 Transformer 框架,旨在仅使用单张图像就能实现人物形象的保持,并支持各种下游任务。该方法允许用户快速地将现有角色融入到新的场景和风格中,极大地简化了角色定制的过程。
InstantCharacter 的关键特点:
- 单图定制:
仅需一张参考图像即可实现角色定制。 - 无需微调:
无需对模型进行微调,降低了使用门槛。 - 风格迁移:
可以将角色融入不同的艺术风格中,例如吉卜力风格或新海诚风格。 - 可扩展性:
适用于各种下游任务,例如图像生成、风格转换等。
地址:https://github.com/Tencent/InstantCharacter
✨ 3: cooragent
Cooragent是AI Agent协作社区,通过创建和组合智能体,以完成复杂任务,并支持分享智能体。
Cooragent 是一个 AI Agent 协作社区,旨在帮助用户轻松创建和管理 AI 智能体 (Agent),并使它们能够协同完成复杂的任务。 它具有以下特点:
- Agent 工厂 (Agent Factory):
用户可以通过简单的描述,一句话 创建满足特定需求的 Agent。 系统会自动分析用户需求,选择合适的工具,完善 Prompt,最终生成可用的 Agent。 - Agent 工作流 (Agent Workflow):
用户描述想要完成的任务,Cooragent 会自动分析任务需求,选择合适的 Agent 进行协作,规划任务步骤,并将任务分配给各个 Agent 完成。 - Agent 协作社区:
用户可以将自己创建的 Agent 发布到社区,与其他用户共享。
地址:https://github.com/LeapLabTHU/cooragent
✨ 4: Austen
Austen是一款AI驱动的Angular应用,能用Mermaidjs图表分析书籍角色关系并生成可视化图形。

Austen是一个基于Angular和Analogjs的AI应用,它利用Open Library的书籍信息和AI技术(DeepSeek, OpenAI)来分析书中人物关系,并使用Mermaidjs图表将其可视化。用户可以搜索书籍、生成人物关系图、保存和下载图表(SVG, PNG),并选择公开或私有地分享图表。其他人也可以发现由其他用户公开分享的图表。
地址:https://github.com/herol3oy/austen
✨ 5: Describe Anything
Describe Anything模型(DAM)能根据图像/视频区域生成详细描述,并提供DLC-Bench评估基准。

Describe Anything (DAM) 是一个由 NVIDIA, UC Berkeley, UCSF 合作开发的模型,旨在对图像或视频中特定区域进行详细的局部描述。 用户可以通过点、框、涂鸦或掩码来指定感兴趣的区域,DAM 将生成该区域的文字描述。对于视频,只需要在任意一帧上进行标注即可。 此外,该项目还发布了一个新的基准测试集 DLC-Bench,用于评估模型在详细局部描述任务上的性能。
地址:https://github.com/NVlabs/describe-anything
(文:每日AI新工具)