Jina AI 发布 ReaderLM-v2：1.5B小模型大突破，HTML 转 Markdown 和 JSON 性能显著提升

Jina AI 近日正式发布了其第二代小型语言模型 ReaderLM-v2，这是一款专注于将 HTML 转换为 Markdown 和 JSON 的 1.5B 参数模型。相比前代，ReaderLM-v2 在长上下文处理、 Markdown 语法生成以及 HTML 到 JSON 的直接转换方面实现了显著提升，展现了小型语言模型在特定任务上的强大潜力。

该模型重点在以下方面做了提升：

从“选择性复制”到“翻译式转换”
第一代 ReaderLM 将 HTML 转 Markdown 视为“选择性复制”任务，而 ReaderLM-v2 则将其视为真正的翻译过程。这一改进使模型能够更好地利用 Markdown 语法，生成复杂的元素如代码块、嵌套列表、表格和 LaTeX 公式，显著提升了输出质量。
长上下文处理能力增强
ReaderLM-v2 支持高达 512K 的输入输出长度，并在处理长文本时表现出色。通过引入对比损失（contrastive loss）训练方法，模型有效解决了前代在生成长序列时出现的重复和循环问题，确保了生成内容的连贯性和一致性。
新增 HTML 到 JSON 的直接转换功能
除了 Markdown 转换，ReaderLM-v2 还支持直接从 HTML 提取信息并生成 JSON 。这一功能消除了传统流程中需要先转换为 Markdown 的中间步骤，简化了数据清洗和提取的流程，特别适用于需要结构化数据的场景。
多语言支持与高质量训练数据
模型支持 29 种语言，包括英语、中文、日语、韩语等，并在多语言任务中表现出色。得益于更高质量的训练数据和新的训练范式，ReaderLM-v2 在内容完整性和结构准确性方面均优于前代及部分大型模型。

在定量评估中，ReaderLM-v2 在 HTML 转 Markdown 任务上表现优异，超越了包括 GPT-4o 、Gemini 2.0 Flash 和 Qwen2.5-32B 在内的多个大型模型。特别是在 ROUGE-L 、Levenshtein 距离和 Jaro-Winkler 相似度等关键指标上，ReaderLM-v2 均取得了领先成绩。在 HTML 转 JSON 任务中，其表现也接近甚至超越了一些大型模型。

ReaderLM-v2 现已通过 Reader API 、AWS SageMaker 等多个平台提供服务。开发者可以通过简单的 API 调用来使用该模型的全部功能。对于企业用户,Jina AI 还提供了经过额外训练和优化的 ReaderLM-v2-pro 版本。同时可通过 Hugging Face 平台获取模型私有化部署。

这一突破再次证明,通过精心的训练设计和高质量数据,小型语言模型完全可以在特定领域达到甚至超越大型模型的表现。这对于推动 AI 技术向更高效、更专业化的方向发展具有重要意义。

模型地址：https://huggingface.co/jinaai/ReaderLM-v2

参考：https://jina.ai/news/readerlm-v2-frontier-small-language-model-for-html-to-markdown-and-json/

（文：AI工程化）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复