Jina AI 近日正式发布了其第二代小型语言模型 ReaderLM-v2,这是一款专注于将 HTML 转换为 Markdown 和 JSON 的 1.5B 参数模型。相比前代,ReaderLM-v2 在长上下文处理、 Markdown 语法生成以及 HTML 到 JSON 的直接转换方面实现了显著提升,展现了小型语言模型在特定任务上的强大潜力。
该模型重点在以下方面做了提升:
-
从“选择性复制”到“翻译式转换”
第一代 ReaderLM 将 HTML 转 Markdown 视为“选择性复制”任务,而 ReaderLM-v2 则将其视为真正的翻译过程。这一改进使模型能够更好地利用 Markdown 语法,生成复杂的元素如代码块、嵌套列表、表格和 LaTeX 公式,显著提升了输出质量。 -
长上下文处理能力增强
ReaderLM-v2 支持高达 512K 的输入输出长度,并在处理长文本时表现出色。通过引入对比损失(contrastive loss)训练方法,模型有效解决了前代在生成长序列时出现的重复和循环问题,确保了生成内容的连贯性和一致性。 -
新增 HTML 到 JSON 的直接转换功能
除了 Markdown 转换,ReaderLM-v2 还支持直接从 HTML 提取信息并生成 JSON 。这一功能消除了传统流程中需要先转换为 Markdown 的中间步骤,简化了数据清洗和提取的流程,特别适用于需要结构化数据的场景。 -
多语言支持与高质量训练数据
模型支持 29 种语言,包括英语、中文、日语、韩语等,并在多语言任务中表现出色。得益于更高质量的训练数据和新的训练范式,ReaderLM-v2 在内容完整性和结构准确性方面均优于前代及部分大型模型。
在定量评估中,ReaderLM-v2 在 HTML 转 Markdown 任务上表现优异,超越了包括 GPT-4o 、Gemini 2.0 Flash 和 Qwen2.5-32B 在内的多个大型模型。特别是在 ROUGE-L 、Levenshtein 距离和 Jaro-Winkler 相似度等关键指标上,ReaderLM-v2 均取得了领先成绩。在 HTML 转 JSON 任务中,其表现也接近甚至超越了一些大型模型。
ReaderLM-v2 现已通过 Reader API 、AWS SageMaker 等多个平台提供服务。开发者可以通过简单的 API 调用来使用该模型的全部功能。对于企业用户,Jina AI 还提供了经过额外训练和优化的 ReaderLM-v2-pro 版本。同时可通过 Hugging Face 平台获取模型私有化部署。
这一突破再次证明,通过精心的训练设计和高质量数据,小型语言模型完全可以在特定领域达到甚至超越大型模型的表现。这对于推动 AI 技术向更高效、更专业化的方向发展具有重要意义。
模型地址:https://huggingface.co/jinaai/ReaderLM-v2
参考:https://jina.ai/news/readerlm-v2-frontier-small-language-model-for-html-to-markdown-and-json/
(文:AI工程化)