腾讯开源多模态扩散Transformer模型HunyuanVideo-Avatar,DeepSeek开源R1最新版本性能接近O3
HunyuanVideo-Avatar生成多角色对话视频;Paper2Poster自动生成科研海报并评估其质量;Chatterbox TTS提供情感控制的TTS模型;日本语文章解析器支持文本分析、OCR和语音朗读功能;syftr优化代理工作流程以达到准确性和成本之间的平衡。
HunyuanVideo-Avatar生成多角色对话视频;Paper2Poster自动生成科研海报并评估其质量;Chatterbox TTS提供情感控制的TTS模型;日本语文章解析器支持文本分析、OCR和语音朗读功能;syftr优化代理工作流程以达到准确性和成本之间的平衡。
CoGenAV 框架结合 ResNet 3D CNN 和 Transformer 编码器提取音视频特征,并通过对比生成同步训练提升模型理解能力,实现‘听清+看懂’多模态理解。
字节跳动开源多模态AI模型Dolphin,通过两阶段机制精准解析复杂文档,支持页面级和元素级解析,并提供在线Demo及本地部署指南。
集成了 Google Gemini、OpenCV 和 YOLO 等先进技术,提供图像问答、生成、编辑
AgenticSeek 是一个完全本地化的 AI 助手项目,替代 Manus AI。它具有智能网页浏览、自主编码等功能,并能自动分配最佳代理完成任务。
本文介绍了一个基于草图和文本提示的创新项目SketchVideo,它通过高效的视频生成与编辑框架改变了传统视频制作方式。该项目结合了多种先进技术,实现了高质量、连贯的视频生成和精细编辑,适用于影视制作、教育、游戏开发等多领域。
欢迎参加Gradio & MCP智能体主题黑客松,Hugging Face举办全球线上活动,探索AnthropicMCP和AI Agentic系统。$10,000现金奖励等你来拿。