开源归档 - 第4页共153页

腾讯开源多模态扩散Transformer模型HunyuanVideo-Avatar，DeepSeek开源R1最新版本性能接近O3

上午11时 2025/05/29 作者每日AI新工具

HunyuanVideo-Avatar生成多角色对话视频；Paper2Poster自动生成科研海报并评估其质量；Chatterbox TTS提供情感控制的TTS模型；日本语文章解析器支持文本分析、OCR和语音朗读功能；syftr优化代理工作流程以达到准确性和成本之间的平衡。

上午8时 2025/05/29 作者 NLP工程化

CoGenAV 框架结合 ResNet 3D CNN 和 Transformer 编码器提取音视频特征，并通过对比生成同步训练提升模型理解能力，实现‘听清+看懂’多模态理解。

上午8时 2025/05/29 作者 NLP工程化

Telegram Search：支持向量搜索和语义匹配的聊天记录搜索客户端，提供备份功能和智能检索技术。

上午8时 2025/05/29 作者 NLP工程化

Awesome-Diffusion-LLM为扩散大语言模型研究者提供最新论文、教程和代码资源，持续更新中。

上午8时 2025/05/29 作者 NLP工程化

WeChatPadPro 提供自动抢红包、消息防撤回、好友管理等丰富的微信功能控制命令。

上午8时 2025/05/29 作者开源星探

字节跳动开源多模态AI模型Dolphin，通过两阶段机制精准解析复杂文档，支持页面级和元素级解析，并提供在线Demo及本地部署指南。

上午8时 2025/05/29 作者 GitHubStore

集成了 Google Gemini、OpenCV 和 YOLO 等先进技术，提供图像问答、生成、编辑

下午11时 2025/05/28 作者开源AI项目落地

AgenticSeek 是一个完全本地化的 AI 助手项目，替代 Manus AI。它具有智能网页浏览、自主编码等功能，并能自动分配最佳代理完成任务。

下午2时 2025/05/28 作者小兵的AI视界

本文介绍了一个基于草图和文本提示的创新项目SketchVideo，它通过高效的视频生成与编辑框架改变了传统视频制作方式。该项目结合了多种先进技术，实现了高质量、连贯的视频生成和精细编辑，适用于影视制作、教育、游戏开发等多领域。

下午2时 2025/05/28 作者 Hugging Face

欢迎参加Gradio & MCP智能体主题黑客松，Hugging Face举办全球线上活动，探索AnthropicMCP和AI Agentic系统。$10,000现金奖励等你来拿。