-
更好的Markdown生成:得益于其新的训练范式和更高质量的训练数据,该模型在生成复杂元素(如代码块、嵌套列表、表格和LaTeX方程式)方面表现出色。
-
JSON输出:引入了使用预定义模式直接从HTML生成JSON的功能,无需中间的Markdown转换。
-
长文本处理:能够处理长达512K标记的组合输入和输出长度,在长篇内容处理上性能得到提升。 -
多语言支持:全面支持29种语言,应用范围更广。 -
稳定性增强:通过在训练过程中使用对比损失,大大缓解了生成长序列后的退化问题。
ReaderLM-v2训练过程
https://github.com/OpenBMB/MiniCPM-o/tree/main
(文:PaperAgent)