专注于将图像文档转换为结构化文本SmolDocling
IBM Research 的 SmolDocling-256M-preview 是一个多模态文档处理模型,专注于将图像文档转换为结构化文本,并支持 OCR、代码块识别、数学公式转换和表格/图表解析等。其核心特性包括高效处理和精准元素识别,具备轻量级模型(基于 2.56 亿参数的 Idefics3 架构)以及开源协议。
IBM Research 的 SmolDocling-256M-preview 是一个多模态文档处理模型,专注于将图像文档转换为结构化文本,并支持 OCR、代码块识别、数学公式转换和表格/图表解析等。其核心特性包括高效处理和精准元素识别,具备轻量级模型(基于 2.56 亿参数的 Idefics3 架构)以及开源协议。
X-Dyna 是一个基于扩散模型的动态人体图像动画工具,能利用单张人像图片和驱动视频生成逼真的人物形象动画及表情、动作迁移等应用。