NLP之文本纠错开源大模型:兼看语音大模型总结

2025年7月5日周六,北京晴天。介绍了中文拼写和语法纠错的大模型及其开源工具,包括14种错误类型支持,并提供了多个版本的训练数据集和代码。同时总结了语音大模型的技术进展,涵盖了50多种语音语言模型的数据集、tokenizer以及主流模型资源。

移动机器人企业「极智嘉」获赴港上市备案通知,或成仓储AMR第一股

极智嘉成立于2015年,总部位于北京,是全球领先的智慧物流公司之一。公司即将通过港交所上市,计划发行不超过226,080,000股境外上市普通股,并将846,074,883股境内未上市股份转为境外上市股份。极智嘉连续三年在全球AMR市场占有率领先,提供多种仓储履约解决方案,在硬件和财务数据方面表现突出,获得多家知名机构投资。

真实场景下文档解析中的2大类8个常见问题:目录层级解析、布局检测、阅读顺序及长表格拼接

2025年6月10日,北京晴。本文讨论了文档解析处理中的检测问题和语义解析问题,包括布局检测、阅读顺序识别、背景干扰、ppocrv5模型精度、跨页表格合并等问题,并提出了解决方案。

我们从Agent强化学习框架RL-Factory及多模态统一框架One-RL-to-See-Them-Al中能学到什么?

今天是2025年5月26日,星期一,北京晴。文章介绍了两个强化学习框架:RL-Factory和One-RL-to-See-Them-All,分别从Agent智能体强化学习框架和统一强化学习框架的角度阐述了工程设计与数据工程及奖励策略的相关工作,并提出了多轮工具使用、难样本选择以及量化指标的设计建议。

RAG中的生成线索挖掘:KG+COT+NLI集成思路GE-Chat及CausalRAG因果过滤方案

2025年5月17日,北京晴天。文章介绍了知识图谱结合因果推理的RAG增强方法GE-Chat与CausalRAG,前者通过构建知识图谱、链式思维和蕴含推理生成准确证据;后者则通过因果关系过滤提高检索精度。