开源AI项目落地，作者每时AI

达摩院开源AI妆容迁移，把妆容一键换到指定人物脸上，AI在美妆行业新落地场景。

下午4时 2025/01/18 作者开源AI项目落地

达摩院开源的AI妆容迁移项目基于潜在扩散模型，采用‘解耦-重构’范式和自监督学习策略。通过拉普拉斯金字塔分解纹理细节及迭代双重对齐模块，提升图像真实性、内容保留与妆容保真度，为化妆迁移任务提供全新解决方案。

下午11时 2025/01/17 作者开源AI项目落地

RealtimeSTT是基于Whisper的流式语音转文字项目，具有实时性和纠错机制。它能快速监听麦克风并转换为文本，适用于需要快速精准转换的应用场景。

下午4时 2025/01/17 作者开源AI项目落地

今天介绍的是RealtimeSTT项目，它是基于Whisper的基础上做的SST功能。其主要特点是流式输出、实时纠错机制和语音活动检测等功能，适用于需要快速精准转换的应用场景。

下午11时 2025/01/16 作者开源AI项目落地

在大数量级AI数据处理场景下，JinaAI的ReaderLM-v2语言模型通过将原始HTML转换为Markdown或JSON格式解决了资源消耗问题，并实现了更好的Markdown生成、新增JSON输出及更强的上下文和多语言支持。

下午11时 2025/01/15 作者开源AI项目落地

今天推荐的Khoj开源软件集成了多种实用AI工具和功能，包括自动化、代码执行和桌面快速聊天等。

下午11时 2025/01/13 作者开源AI项目落地

文章介绍了美间AI设计在电商设计行业的应用，强调个性化、沉浸式体验等趋势，并详细阐述了其三大功能：AI智能抠图、AI真实增强和AI营销文案，帮助用户快速生成高质量作品。

下午11时 2025/01/11 作者开源AI项目落地

WrenAI是一个开源AI智能代理，让用户能够通过文本与数据对话，实现从文本到SQL的转换，生成图表、电子表格、报告以及商业智能分析。它支持多种语言，提供智能数据探索功能，并能轻松地将数据导出至Excel和Google表单等工具。

下午11时 2025/01/10 作者开源AI项目落地

文章介绍了TangoFlux，一款由新加坡科技设计大学和NVIDIA联合开发的高效文本到音频生成模型。它能在单个A40 GPU上仅用3.7秒生成长达30秒的高质量音频，展示了优越性能，并详细阐述了其技术特点，包括高效的生成能力、流匹配与直流量化流技术以及Clap排名偏好优化（CRPO）等。

下午11时 2025/01/10 作者开源AI项目落地

英伟达发布NVILA系列视觉语言模型，优化了模型效率和准确性。该模型在图像和视频基准测试中表现出色，并具备多种应用能力，如自动化检测、智慧园区等。

下午11时 2025/01/09 作者开源AI项目落地

TangoFlux是由新加坡科技设计大学和NVIDIA联合开发的高效文本到音频生成模型，能在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。该模型采用流匹配框架，并引入了CRPO技术提升生成音频与文本描述的匹配度。