开源
QwenLong-L1:迈向具备长上下文推理能力的大型语言模型的强化学习方法
本文提出了一种强化学习框架QwenLong-L1,旨在提升大语言模型在长上下文中的泛化能力,并通过逐步扩展上下文长度、混合奖励函数等方法实现这一目标。
字节Dolphin:多模态文档图像解析模型
Dolphin 是一种新颖的多模态文档图像解析模型,采用‘分析后解析’范式,通过两阶段方法高效处理文本段落、图表、公式和表格等交织内容,实现了卓越的解析效率。
App Runner和Task Pipeline中的数据库连接管理指南
文章讨论了Flask-Sqlalchemy在App Runner和任务管道中的数据库操作连接管理问题,并提出通过及时关闭连接解决长时间运行任务占用数据库连接的问题。
开源音视频转各种风格文档,一个真正有落地场景的开源AI项目,我也想落地一个。
今天推荐的AI-Media2Doc开源项目能将音视频转换为多种文档形式,支持AI问答和思维导图导出等功能。MIT协议下可自由商用。
字节开源高效解析文档图像的新型多模态模型Dolphin,快速将复杂的文档图像转化为结构化数据。
Dolphin是基于单一视觉语言模型的两阶段文档图像解析模型,采用自然阅读顺序生成元素序列和异构锚点提示进行高效并行解析。支持页面级和元素级解析,性能卓越。
Mac上的AI聊天侧边栏Onit,阿里巴巴开源QwenLong-L1,Web Agent 和浏览器之间无缝交互的标准框架
Onit是Mac上的AI聊天侧边栏,Cursor Chat的Mac版。Web Agent Protocol(WAP)用于实现用户、Web代理和浏览器之间的无缝交互。QwenLong-L1作为首个长文本推理大模型,在DocQA基准测试中表现出色。TranslateBookWithLLM是一个基于Ollama API的Python应用,支持大规模文本翻译,并提供Web和CLI界面。Claude Code MCP Server通过绕过权限限制增强了Claude的代码处理能力。