腾讯开源多模态扩散Transformer模型HunyuanVideo-Avatar,DeepSeek开源R1最新版本性能接近O3

关注我,记得标星⭐️不迷路哦~


✨ 1: HunyuanVideo-Avatar

HunyuanVideo-Avatar是一款多模态扩散Transformer模型,可生成动态、情感可控的多角色对话视频,并已开源推理代码和模型权重。

HunyuanVideo-Avatar 是一个基于多模态扩散Transformer (MM-DiT) 的模型,用于生成高质量的音视频驱动的人物动画。 它的核心特点是:

  • 高动态
    : 能够生成具有高动态前景和背景的视频,效果逼真自然。
  • 可控情感
    : 能够根据音频条件控制人物的面部表情。
  • 多人物
    : 支持多角色对话视频的生成。
  • 多模态视频定制
    :支持任何输入头像图像制作成视频,支持多种风格头像,包括照片级真实、卡通、3D 渲染和拟人化角色;支持人像、上半身和全身的多尺度生成。
  • 多项开源计划
    : 提供了推理代码和模型权重,并且未来计划支持 ComfyUI。

地址:https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar

✨ 2: Paper2Poster

Paper2Poster是一个多模态系统,能从科研论文自动生成海报,并提供评估方法,包括视觉质量和内容连贯性等指标。

Paper2Poster,一个从科学论文自动生成多模态海报的工具和框架。它解决了两个核心问题:

  1. 如何从论文创建海报? Paper2Poster提供了一个名为PosterAgent的系统,它是一个自顶向下、视觉循环的多智能体系统,可以将 paper.pdf 转换为 poster.pptx。这个系统包含几个关键组件:

    • Parser (解析器):
       将论文提炼成结构化的资源库。
    • Planner (规划器):
       将文本和视觉元素对齐到二叉树布局中,保持阅读顺序和空间平衡。
    • Painter-Commentor Loop (绘制者-评论者循环):
       通过执行渲染代码并使用视觉语言模型 (VLM) 的反馈来改进每个面板,以消除溢出并确保对齐。
  2. 如何评估海报? Paper2Poster不仅可以生成海报,还提供了一套全面的评估工具,包括:

    • Visual Quality (视觉质量):
       评估海报的视觉吸引力。
    • Textual Coherence (文本连贯性):
       评估海报文本的逻辑性和流畅性。
    • VLM-as-Judge (VLM 作为评判者):
       使用视觉语言模型来评估海报的质量。
    • PaperQuiz:
       一个新颖的评估方法,它假定好的海报应该以视觉方式传达核心论文内容。

地址:https://github.com/Paper2Poster/Paper2Poster

✨ 3: Chatterbox TTS

Chatterbox TTS 是 Resemble AI 开源的生产级TTS模型,它支持情感夸张控制,性能优于ElevenLabs,并且包含水印功能。

Chatterbox TTS 是 Resemble AI 推出的第一个生产级别的开源文本转语音 (TTS) 模型。它基于 MIT 许可证,在与 ElevenLabs 等领先的闭源系统进行比较评测时,表现优异。Chatterbox TTS 的关键特点包括:

  • 先进的 (SoTA) 零样本 (Zeroshot) TTS:
     意味着它能够根据少量音频信息,模仿不同说话者的声音。
  • 基于 0.5B Llama 主干网络:
     具有强大的生成能力。
  • 独特的情感夸张/强度控制 (exaggeration/intensity control):
     这允许用户调整语音的情感表达程度,使语音更生动。
  • 超稳定,具有对齐信息推理:
     能够生成流畅自然的语音。
  • 基于 0.5M 小时的清洗数据训练:
     确保了模型的质量。
  • 带有水印输出:
     使用 PerTh 水印技术,可以追踪生成语音的来源,防止滥用。
  • 易于使用的声音转换脚本:
     可以轻松地将文本转换为特定声音的语音。
  • 超越 ElevenLabs:
     在一些基准测试中优于 ElevenLabs。

地址:https://github.com/resemble-ai/chatterbox

✨ 4: 日本語文章解析器

基于AI的日语语句分析器,为中文用户提供深入的日语语法、词义解析,以及OCR图像识别和语音朗读等功能。

AI驱动的日语文本章节解析器,它旨在帮助中文用户深入理解日语句子的结构和语义。

核心功能包括:

  • 智能句子分析:
     自动识别和标注日语句子中的每个词汇,包括词性、发音和罗马音。
  • 详细词义解释:
     提供每个词汇的全面中文释义。
  • OCR图像识别:
     支持从图片中提取日文文本。
  • 语音朗读功能:
     使用系统TTS朗读日语。
  • 整句翻译:
     提供完整的中文翻译,方便理解整体含义。
  • 流式处理:
     采用流式API响应,提供更好的用户体验。
  • 自定义设置:
     允许用户配置API密钥和服务URL。

地址:https://github.com/cokice/japanese-analyzer

✨ 5: syftr

Syftr是一个代理优化器,使用多目标贝叶斯优化高效搜索给定预算下最佳的代理工作流组合,以达到准确性和其他目标之间的平衡。

syftr,一个用于为给定的预算找到最佳代理工作流的代理优化器。

syftr 是一种代理优化器,帮助用户在特定预算下找到最佳的代理工作流程。它利用多目标贝叶斯优化和特定领域的“帕累托剪枝”技术,高效地搜索代理和非代理流程空间,以估计准确性与成本、延迟、吞吐量等相互竞争的目标之间的帕累托前沿(最佳权衡曲线)。
在给定预算下,优化 Agentic Workflow,寻找准确性和成本(或其他目标,如延迟和吞吐量)之间的最佳平衡。

地址:https://github.com/datarobot/syftr

DeepSeek开源R1最新版本性能接近O3,Live CodeBench最新排名:

地址:https://github.com/datarobot/syftr

(文:每日AI新工具)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往