SmolDocling-256M-preview 是一个多模态的图像-文本到文本模型

SmolDocling-256M-preview 是一个多模态的图像-文本到文本模型，专为高效的文档转换而设计。它保留了 Docling 的大部分流行功能，并通过无缝支持 DoclingDocuments 确保与 Docling 的完全兼容。该模型能够从图像中准确提取文本，保留文档结构和元素边界框，识别和格式化代码块，处理数学表达式，提取和解释图表数据，支持结构化表格提取，并区分图形元素。它适用于科学和非科学文档的全面处理。

参考文献：
[1] https://huggingface.co/ds4sd/SmolDocling-256M-preview
[2] https://huggingface.co/spaces/ds4sd/SmolDocling-256M-Demo
[3] https://arxiv.org/html/2503.11576v1

（文：NLP工程化）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

发表评论取消回复