0.35秒OCR整页文档,比Qwen2.5 VL高出10%的文档转换多模态模型!

SmolDocling 是一种高效文档转换的多模态图文到文本模型,由IBM Research联合推出,在A100 GPU上每页仅需0.35秒完成处理,并使用256M参数比Qwen2.5 VL更高效。其功能特性包括高效的文档表示、光学字符识别、布局和定位保留、代码识别、公式识别、图表识别及表格识别等。