字节开源MegaTTS3-轻量高效语音合成模型，Wan 团队开源 All-in-One 视频编辑框架 VACE

关注我，记得标星⭐️不迷路哦～

✨ 1: MegaTTS3

MegaTTS3是由字节跳动开发的轻量高效语音合成模型，支持中英双语，具有高音质克隆和口音控制等功能。

MegaTTS3 是字节跳动开源的一个轻量级、高效的文本到语音（TTS）合成系统。主要特点包括：

轻量级且高效：

TTS Diffusion Transformer 的主干网络仅有 0.45B 参数。
高质量语音克隆：

具有优秀的语音克隆能力，能根据提供的音频样本生成相似的语音。
双语支持：

支持中文和英文，以及中英文混合语境。
可控性：

支持口音强度控制，并计划支持更精细的发音/时长调整。

地址：https://github.com/bytedance/MegaTTS3/blob/main/readme.md

✨ 2: VACE

VACE是集视频创作与编辑于一体的AI模型，支持参考视频生成、视频编辑等多种任务的自由组合。

VACE是一个一体化的视频创作和编辑模型，集成了多种任务，包括参考视频生成（R2V）、视频到视频编辑（V2V）和遮罩视频到视频编辑（MV2V）。用户可以自由组合这些任务，实现诸如移动物体、替换物体、参考物体、扩展画面、动画化等功能，从而简化工作流程，探索更多可能性。

视频内容创作：

通过文字提示和/或参考图像/视频，生成全新的视频内容。
视频编辑和修改：

在现有视频的基础上进行编辑，例如：

物体移动：

改变视频中物体的运动轨迹。
物体替换：

将视频中的物体替换成其他物体。
风格迁移：

将参考图像的风格应用到视频中。
画面扩展：

扩大视频的视野范围。
动画化：

将视频中的物体或场景转换为动画效果。
视频修复/补全:

使用遮罩和提示来修复或补全视频中缺失或损坏的部分.

创意探索：

尝试不同的创意组合，探索视频创作的更多可能性。
快速原型设计：

快速生成视频原型，验证创意想法。

地址：https://github.com/ali-vilab/VACE

✨ 3: CodeScientist

CodeScientist是一个半自动科学发现系统，通过结合论文与代码示例，利用LLM设计、迭代和分析科学实验，并生成报告。

CodeScientist是一个半自动化的科学发现系统，能够设计、迭代和分析可表达为Python代码的科学实验。它通过使用大型语言模型 (LLM) 作为变异器，对科学文章和代码示例进行基因突变，从而产生新的实验思路。这些实验思路可以通过实验构建器自动创建、运行和调试容器中的实验代码。完成后，CodeScientist会生成一份关于结果的报告。

CodeScientist 的使用场景包括：

自动化科学实验设计：

用于在特定领域内自动生成实验想法，并将其转化为可执行的代码。
实验迭代和分析：

用于半自动化地迭代实验，并分析实验结果，生成报告。
领域探索和发现：

帮助研究人员探索新的研究方向，并发现潜在的科学突破。
教育和学习：

用于教学和学习科学实验的设计和分析。
基准测试和评估：

用于比较不同的实验方法，并评估其性能。

地址：https://github.com/allenai/codescientist

✨ 4: Gemini Code

Gemini Code是终端AI编程助手，由Gemini 2.5 Pro驱动，支持多种LLM模型，并能自动使用工具。

Gemini Code 是一个基于 Gemini 2.5 Pro (以及其他 LLM 模型) 的 AI 编码助手，可以在你的终端中使用。它提供交互式的聊天会话，并支持多种模型，具有基本的历史记录管理，且支持 Markdown 渲染。最重要的是，它能够自动使用各种工具来辅助你，例如：

文件操作:

查看、编辑、列出、搜索文件
目录操作:

列出目录内容、创建目录
系统命令:

执行 Bash 命令
质量检查:

代码检查、格式化
测试运行:

执行测试用例 (如 pytest)

地址：https://github.com/raizamartin/gemini-code

✨ 5: hospital_multiagent_system

hospital_multiagent_system是一个基于多智能体的医疗问诊框架，支持长短期记忆，防骚扰且易于扩展。

hospital_multiagent_system 是一个医疗问诊系统的多智能体框架，旨在模拟和协助医生进行问诊。该框架具备以下关键特性：

支持长短期记忆反思：

智能体能够根据短期和长期记忆进行推理和反思，提升问诊的准确性和效率。
防骚扰机制：

集成了防骚扰功能，确保系统的安全性和用户体验。
协同问诊：

支持基于长短期记忆的智能体协同问诊，默认将ID与客户手机号关联，实现个性化的问诊服务。
易于扩展：

框架设计简洁，方便后续扩展和开发，可以根据实际需求进行定制。

地址：https://github.com/hellangleZ/hospital_multiagent_system

（文：每日AI新工具）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

✨ 1: MegaTTS3

✨ 2: VACE

✨ 3: CodeScientist

✨ 4: Gemini Code

✨ 5: hospital_multiagent_system

发表评论 取消回复

发表评论取消回复