JinaAI发布ReaderLM-v2,1.5B轻松拿捏HTML转JSON或MarkDown

ReaderLM-v2 是一个拥有1.5B参数的语言模型,能够将原始的HTML转换为格式美观的Markdown或JSON,具有更高的准确性和改进的长文本处理能力。

ReaderLM-v2支持多种语言(共29种),专门用于涉及HTML解析、转换和文本提取的任务。
ReaderLM-v2 与 ReaderLM 1.5b、Claude 3.5 Sonnet 以及 Gemini 2.0 Flash 在处理 HackerNews 首页 HTML 转 Markdown 任务对比中,转换结果完整、层次结构清晰。
ReaderLM-v2特点
  • 更好的Markdown生成:得益于其新的训练范式和更高质量的训练数据,该模型在生成复杂元素(如代码块、嵌套列表、表格和LaTeX方程式)方面表现出色。 
  • JSON输出:引入了使用预定义模式直接从HTML生成JSON的功能,无需中间的Markdown转换。 
  • 长文本处理:能够处理长达512K标记的组合输入和输出长度,在长篇内容处理上性能得到提升。
  • 多语言支持:全面支持29种语言,应用范围更广。
  • 稳定性增强:通过在训练过程中使用对比损失,大大缓解了生成长序列后的退化问题。

ReaderLM-v2训练过程

结合三阶段数据生成(起草-改进-评估)与自我对弈强化学习,实现持续提升。
https://github.com/OpenBMB/MiniCPM-o/tree/main

(文:PaperAgent)

欢迎分享

发表评论