学术型OCR天花板!这个开源多模态OCR神器,专为教育场景适配,准确率超95%!

一款专为教育场景和机器学习训练定制的Versatile-OCR-Program,支持多语言、多模态内容处理,并生成结构化输出。准确率高达90-95%,适用于PDF文档中的文本、数学公式、表格及图表提取。

赢麻了!全体程序员彻底狂欢吧!这个好消息来得太及时!

阿里云等企业全面接入AI技术,要求员工掌握大模型开发能力。传统开发框架面临淘汰,AI相关岗位需求暴增且薪资上涨。知乎知学堂推出免费课程,涵盖大模型原理、应用技术和实战经验,助力学员从开发者转型为大模型应用开发工程师。

清华大学推出Dolphin语音识别模型!专攻40种东方语言,方言识别准确率提升54%!

清华大学和海天瑞声联合开源的Dolphin语音识别模型专为东方语言设计,支持40种东方语言和22种汉语方言,其small版本仅为Whisper large v3大小的一半,却提高了54.1%的平均字错率。

零代码打造个人AI助手!AutoAgent:Manus和Deep Research的开源版方案!

一款完全自动化、零代码的 LLM 智能体框架 AutoAgent 由香港大学 HKUDS 团队开发并开源,目标是让 AI 开发无门槛。它支持三种使用模式和两种交互模式,内置向量数据库强化 AI 记忆能力。适用于智能搜索、数据分析、信息处理等场景,用户只需用日常语言描述需求即可生成智能助手。

MacOS 的 AI Agent 新星,本地沙盒驱动,解锁 macOS 操作新体验!

Cua 是由 trycua 团队开发的 macOS 上的开源 AI Agent 框架,支持虚拟化运行 macOS 和 Linux 系统,并且能够使用 OpenAI 和 Anthropic 的 CUA 模型进行操作。它提供高性能虚拟化、安全隔离和多应用支持等特性。