最强高质量SVG生成大模型OmniSVG来袭,复旦&StepFun出品!

复旦&StepFun提出并将开源OmniSVG:能够逐步生成各种复杂程度的高质量 SVG——从简单的图标到复杂的动漫人物。它通过多种生成模式展现出卓越的多功能性,包括文本转 SVG、图像转 SVG 和字符引用 SVG,使其成为适用于各种创意任务的强大而灵活的解决方案。
再看一个更直观的动图效果,tokens生成与SVG可视化对比:
更多信息:《动手设计AI Agents:CrewAI版》、《高级RAG之36技》、新技术实战:Manus+MCP/GRPO+Agent/Lazy-GraphRAG、大模型日报/月报、最新技术热点追踪(GPT4-o/数字人/MCP/Gemini 2.5 Pro)
OmniSVG方法概述
OmniSVG 基于预先训练的视觉语言模型 Qwen-VL 构建,并集成了 SVG 分词器。该模型将文本和图像输入分词为前缀分词器,而 SVG 分词器则将矢量图形命令编码到统一的表示空间中。

OmniSVG与SOTA方法比较

  • 文本转SVG
  • 图像转SVG

  • 字符参考 SVG

MMSVG-2M数据集

MMSVG-2M 数据集包含三个子集,分别为图标、插图和字符。图标、插图和部分字符子集的样本均从互联网下载。字符子集的另一部分由我们的数据生成流程生成,可为图像提示任务提供图像和 SVG 对。
https://arxiv.org/pdf/2504.06263OmniSVG: A Unified Scalable Vector Graphics Generation Modelhttps://omnisvg.github.io/https://huggingface.co/OmniSVG

(文:PaperAgent)

欢迎分享

发表评论