开源归档 - 第2页共152页

自动抓取抖音热门音乐榜单的工具,支持高潮片段提取和可视化展示

上午11时 2025/05/30 作者 GitHubStore

本项目可以自动抓取抖音热门音乐榜单数据，并支持歌词同步和高潮片段识别。系统还提供了美观的前端界面和定时更新功能。

上午8时 2025/05/30 作者 NLP工程化

Resemble AI 推出免费开源 TTS 模型 Chatterbox，在盲测中击败 ElevenLabs，具备情感控制能力，并支持语音克隆和风格定制。

上午8时 2025/05/30 作者 NLP工程化

RAGFlow支持通过Kubernetes (K8s)集群化部署，包括主应用、文档引擎（可选）、MinIO、MySQL和Redis等组件，从v0.15.0版本开始提供。

上午8时 2025/05/30 作者 NLP工程化

DeepSeek发布R1-0528，显著提升代码生成能力，推理速度和质量提高，性能接近OpenAI的o3等前沿模型，在数学、编程和复杂任务上表现出色。

上午8时 2025/05/30 作者 NLP工程化

一种从数据为中心和训练阶段视角构建的端到端智能信息检索代理方法及其在WebWalkerQA上的实验结果

上午8时 2025/05/30 作者开源星探

腾讯混元与腾讯音乐联合开源的数字人音频驱动模型HunyuanVideo-Avatar，支持单或多角色对话和多种图像风格生成。通过一张人物图片和一段音频（最长14秒），生成高保真语音驱动动画，并引入了三项关键创新。

下午11时 2025/05/29 作者开源AI项目落地

PaddleOCR 3.0发布全面适配飞桨框架，提升文字识别精度并新增国产硬件支持。PP-StructureV3在文档解析方面表现突出，精度和专精能力领先众多方案。PaddleOCR系列解决方案为AI大模型文档处理提供了强有力的支持。

下午2时 2025/05/29 作者小兵的AI视界

依赖于复杂的拍摄条件或后期处理，难以实现高效且自然的光照调整
。为了解决这一问题，上海
AI Lab

上午11时 2025/05/29 作者每日AI新工具

HunyuanVideo-Avatar生成多角色对话视频；Paper2Poster自动生成科研海报并评估其质量；Chatterbox TTS提供情感控制的TTS模型；日本语文章解析器支持文本分析、OCR和语音朗读功能；syftr优化代理工作流程以达到准确性和成本之间的平衡。

上午8时 2025/05/29 作者 NLP工程化

CoGenAV 框架结合 ResNet 3D CNN 和 Transformer 编码器提取音视频特征，并通过对比生成同步训练提升模型理解能力，实现‘听清+看懂’多模态理解。