OpenAI发布GPT-image-1的api拥有更强的灵活性吉卜力模式更方便，腾讯开源定制化角色生成插件

关注我，记得标星⭐️不迷路哦～

✨ 1: GPT-image-1

GPT-image-1 是 OpenAI 最新、最先进的图像生成模型。它是一个原生的多模态语言模型，于今天凌晨1点30通过 API 向全球开发者开放使用。

与 ChatGPT 版本有很大不同，通过 API 使用 GPT-image-1 可以进行更多高级定制，包括控制生成图像的敏感度、生成效率、背景、输出格式、渲染质量、压缩质量等。该模型还支持全网流行的“吉卜力模式”。

GPT Image 模型以其高质量的图像生成能力、在图像创作中使用世界知识的能力、卓越的指令遵循能力、文本渲染能力以及详细的编辑能力而受到推荐。

目前，Adobe、Figma、HeyGen、Wix 等知名企业已经将该模型集成到其产品中。例如，Adobe 将其集成到 Firefly 和 Express 应用中提供不同类型的图片风格，Figma 使用它帮助设计师快速获取想法并进行视觉迭代，Photoroom 正在使用它帮助在线卖家创建工作室品质的视觉效果。

为了确保模型的负责任使用，您可能需要完成 API Organization Verification。OpenAI 对新模型的 API 使用了全新的身份验证。如果无法通过验证，可以使用微软的 Azure 云服务进行体验。

API 端点与功能

Image API 为 GPT-image-1 提供了两个主要的端点，每个端点都有不同的功能:

Generations (生成)

：从头开始根据文本提示生成图像。可以通过设置 n 参数，在单个请求中一次生成多张图像 (默认为返回一张图像)。
Edits (编辑)

：修改现有图像。这包括：

使用新的提示部分或完全修改现有图像。
使用一张或多张现有图像作为参考来生成新图像。例如，可以使用四张单图直接合成一张完整的礼品图像。
通过上传图像和掩码 (mask) 来编辑图像的特定部分，这被称为蒙版编辑 (inpainting)。掩码的透明区域将被替换，而黑色区域将被保留。在提供掩码时，提示词应描述完整的最终图像，而不仅仅是擦除的区域. 图像和掩码必须格式和大小相同 (小于 25MB)，并且掩码图像必须包含 alpha 通道. 可以通过编程方式为黑白掩码添加 alpha 通道.

定制化输出选项

您可以通过 API 配置以下输出选项，以定制图像的生成：

Size (尺寸)

：图像尺寸。可用尺寸包括 1024x1024 (方形)、1536x1024 (纵向)、1024x1536 (横向)。默认为 1024x1024. 方形图像和标准质量的生成速度最快。
Quality (质量)

：渲染质量。可用选项包括 low (低)、medium (中)、high (高)。默认为 auto. 透明背景功能在设置为 medium 或 high 质量时效果最佳。
Format (格式)

：文件输出格式。Image API 返回 base64 编码的图像数据。默认格式是 png，但也可以请求 jpeg 或 webp.
Compression (压缩)

：对于 jpeg 和 webp 格式，可以指定 output_compression 参数控制压缩级别 (0-100%).
Background (背景)

：透明或不透明。gpt-image-1 模型支持透明背景。要启用透明度，需要将 background 参数设置为 transparent。透明背景仅支持 png 和 webp 输出格式。

图像输出每 100 万 token 的成本为 40 美元。在实际使用中，低质量的 1024×1024 图像生成成本大约为每张 0.02 美元，中等质量的图像约为每张 0.07 美元，而高质量图像则约为每张 0.19 美元。

地址：https://platform.openai.com/docs/guides/image-generation?image-generation-model=gpt-image-1

✨ 2: InstantCharacter

InstantCharacter通过扩散Transformer框架，仅用单张图片即可个性化角色生成，支持多种下游任务。

InstantCharacter 是一种无需微调的创新方法，它基于扩散 Transformer 框架，旨在仅使用单张图像就能实现人物形象的保持，并支持各种下游任务。该方法允许用户快速地将现有角色融入到新的场景和风格中，极大地简化了角色定制的过程。

InstantCharacter 的关键特点：

单图定制：

仅需一张参考图像即可实现角色定制。
无需微调：

无需对模型进行微调，降低了使用门槛。
风格迁移：

可以将角色融入不同的艺术风格中，例如吉卜力风格或新海诚风格。
可扩展性：

适用于各种下游任务，例如图像生成、风格转换等。

地址：https://github.com/Tencent/InstantCharacter

✨ 3: cooragent

Cooragent是AI Agent协作社区，通过创建和组合智能体，以完成复杂任务，并支持分享智能体。

Cooragent 是一个 AI Agent 协作社区，旨在帮助用户轻松创建和管理 AI 智能体 (Agent)，并使它们能够协同完成复杂的任务。它具有以下特点:

Agent 工厂 (Agent Factory):

用户可以通过简单的描述，一句话 创建满足特定需求的 Agent。系统会自动分析用户需求，选择合适的工具，完善 Prompt，最终生成可用的 Agent。
Agent 工作流 (Agent Workflow):

用户描述想要完成的任务，Cooragent 会自动分析任务需求，选择合适的 Agent 进行协作，规划任务步骤，并将任务分配给各个 Agent 完成。
Agent 协作社区:

用户可以将自己创建的 Agent 发布到社区，与其他用户共享。

地址：https://github.com/LeapLabTHU/cooragent

✨ 4: Austen

Austen是一款AI驱动的Angular应用，能用Mermaidjs图表分析书籍角色关系并生成可视化图形。

Austen是一个基于Angular和Analogjs的AI应用，它利用Open Library的书籍信息和AI技术（DeepSeek, OpenAI）来分析书中人物关系，并使用Mermaidjs图表将其可视化。用户可以搜索书籍、生成人物关系图、保存和下载图表（SVG, PNG），并选择公开或私有地分享图表。其他人也可以发现由其他用户公开分享的图表。

地址：https://github.com/herol3oy/austen

✨ 5: Describe Anything

Describe Anything模型(DAM)能根据图像/视频区域生成详细描述，并提供DLC-Bench评估基准。

Describe Anything (DAM) 是一个由 NVIDIA, UC Berkeley, UCSF 合作开发的模型，旨在对图像或视频中特定区域进行详细的局部描述。用户可以通过点、框、涂鸦或掩码来指定感兴趣的区域，DAM 将生成该区域的文字描述。对于视频，只需要在任意一帧上进行标注即可。此外，该项目还发布了一个新的基准测试集 DLC-Bench，用于评估模型在详细局部描述任务上的性能。

地址：https://github.com/NVlabs/describe-anything

（文：每日AI新工具）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

✨ 1: GPT-image-1

✨ 2: InstantCharacter

✨ 3: cooragent

✨ 4: Austen

✨ 5: Describe Anything

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复