阿里巴巴达摩院
太给力了!刚刚开源的TTS模型,1:1零样本声音克隆,连呼吸节奏都能控制!
Spark-TTS 是一款全新的高质量语音合成系统,支持零样本语音克隆、细粒度语音控制、跨语言生成等功能。它结合了 BiCodec 编解码器和 Qwen-2.5 思维链技术,实现自然且高效的语音生成,适用于多种场景如有声读物、多语言内容及AI角色配音。
阿里开源版Sora上线即屠榜,4070就能跑,免费商用
阿里开源万相2.1版本,视频生成模型参数量高达14B,可实现复杂运动细节同步、文字生成等功能。支持分辨率720P的14B版本已在多平台开放下载,并计划集成ComfyUI。
阿里巴巴达摩院发布了专注于图像和视频理解的多模态基础模型:VideoLLaMA 3
阿里巴巴达摩院发布VideoLLaMA3多模态基础模型,支持看懂视频内容、理解图片并能对话,基于Qwen2.5架构。
o1圈卷起来,百川智能开源Baichuan-M1-14B~
国内首个全场景深度思考模型Baichuan-M1-preview发布,并开源了行业首个开源医疗增强大模型Baichuan-14B-M1,该模型在通用和医疗领域表现出色,具备语言、视觉和搜索能力。
达摩院开源AI妆容迁移,把妆容一键换到指定人物脸上,AI在美妆行业新落地场景。
达摩院开源的AI妆容迁移项目基于潜在扩散模型,采用‘解耦-重构’范式和自监督学习策略。通过拉普拉斯金字塔分解纹理细节及迭代双重对齐模块,提升图像真实性、内容保留与妆容保真度,为化妆迁移任务提供全新解决方案。
请注意:o1不是用来聊天的!
o1系统因其独特的技术特点,被一些用户视为高级报告生成器而非聊天工具。为了充分利用o1的能力,用户需要转变思维方式,并通过明确目标、指定格式、提供背景信息等方法与之互动。尽管存在风格固化和应用开发方面的局限性,但o1在代码生成、查询语言处理以及医疗诊断等方面展现出惊人的能力。此外,它还可能成为未来数据分析任务和其他复杂系统设计的新工具。