超酷的PDF转换工具!直接支持DeepSeek V3,本地AI精准解析PDF扫描件!
一款名为PDF Craft的开源工具专注于将扫描书籍的PDF文件转化为Markdown或EPUB格式,支持本地AI模型运行核心功能和远程调用LLM处理复杂任务,具有高效、精准、隐私友好等特点。
一款名为PDF Craft的开源工具专注于将扫描书籍的PDF文件转化为Markdown或EPUB格式,支持本地AI模型运行核心功能和远程调用LLM处理复杂任务,具有高效、精准、隐私友好等特点。
阿里巴巴通义实验室发布的大规模人体重建模型LHM,可在几秒钟内将一张全身照片转换为可动画的3D头像,支持实时渲染和姿势控制。该模型已开源并提供在线试用和本地部署选项,能够降低技术门槛并在多个领域如内容创作、虚拟现实和游戏开发中应用。
通过语音对话实时搜索Qdrant向量数据库的开源工具Oliva降低了用户与AI的知识库交互门槛。它支持多智能体协作、实时信息检索和个性化配置,提升了效率和智能化水平。
一款名为Sidekick的开源AI助手可以在Mac上完全离线运行,确保数据安全和隐私。它支持知识检索、代码解释、图像生成等功能,适合本地知识管理、代码开发、论文写作等场景。
一款名为LangManus的AI自动化工具通过大语言模型和多种集成工具支持,实现了端到端的任务自动化,包括搜索、爬取、代码执行等,简化了复杂任务流程。
Orpheus TTS 是一款全新的开源 TTS 模型,支持接近人类的自然情感表达、超低延迟(25-50毫秒)以及强大的零样本语音克隆功能。该模型提供从 150M 到 3B 参数四种不同规模的选择。
一款名为SmolDocling的轻量级OCR模型,仅256M参数,支持文档中的标题、正文、图表等多任务识别,并能导出为Markdown、HTML等多种格式。
Seed-VC 是一款强大的开源语音转换和歌声转换工具,支持零样本语音克隆、实时语音转换及AI歌曲转换。它基于字节跳动 SEED-TTS 架构开发,延迟低至400毫秒,适用于配音、虚拟主播等场景。
ReasonGraph 是一款开源工具,将大语言模型的推理过程可视化为直观图表,支持多种推理方式,并实时更新和交互分析。它能帮助用户理解AI思考路径,适用于LLM研究、调试评估等场景。
阿里通义实验室薄列峰团队首次将RLVR应用于全模态LLM,聚焦情感识别任务。R1-Omni模型提升了推理、理解与泛化能力,在多模态数据集上表现出色,并已开源。