跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

GenEval

图像分词器造反了!华为 Selftok:自回归内核完美统一扩散模型,触发像素自主推理

下午4时 2025/05/17 作者 机器之心

GPT-3 到 GPT-4o,「next-token prediction」以简单粗暴的因果建模横扫

分类 学术、 资讯 标签 AR tokens、 GenEval、 ImageNet、 Tokenizer、 强化学习、 预训练 发表评论

连续Token助力文本生成图像迈向新高度!Kaiming团队提出Fluid:MS-COCO上实现6.16 FID

下午11时 2025/04/13 作者 极市干货

比基于离散 token 的模型实现更好的视觉质量。
>>
加入极市CV技术交流群,走在计算机视觉的最

分类 学术 标签 FID、 Fluid模型、 GenEval、 MS-COCO、 参数量、 视觉质量 发表评论

一秒十图!英伟达MIT联手刷新SOTA,一步扩散解锁实时高质量可控图像生成

下午4时 2025/03/31 作者 新智元

新智元报道编辑:LRS 好困。研究提出SANA-Sprint,一种高效的蒸馏扩散模型用于超快速文本到图像生成,仅需1-4步即可在H100上实现7.59 FID和0.74 GenEval的先进性能,并支持实时交互式生成。

分类 资讯 标签 FID、 GenEval、 H100、 SANA-Sprint、 蒸馏扩散模型、 超快速生成 发表评论

让小模型也能有大作为!SANA 1.5:线性扩散Transformer再刷文生图新SOTA

下午12时 2025/03/15 作者 极市干货

0 blocks) 缩放到 4.8B (60 blocks),重用小模型的知识。不用从头开始训练模型

分类 学术 标签 GenEval、 Inference Scaling Law、 LiDT、 Sana、 高效扩散模型、 高质量数据微调 发表评论

DeepSeek官方开源多模态视觉理解和生成模型,谁说DeepSeek只能问答了?!

下午11时 2025/02/13 下午11时 2025/02/11 作者 开源AI项目落地

DeepSeek团队发布的新多模态模型Janus-Pro通过优化训练策略、扩展数据集和扩大模型规模提升了性能,实现高质量的文本到图像生成及多模态理解。

分类 开源 标签 DeepSeek、 GenEval、 Janus-Pro、 MMBench、 多模态模型、 视觉编码解耦 发表评论

图像生成推理大模型,港中文北大等联手破解画质提升难题

下午4时 2025/02/08 作者 量子位

来自港中文、北大和上海AI Lab的研究团队将思维链(CoT)与生成模型结合,显著提高了自回归图像生成的质量,并提出了潜力评估奖励模型(PARM)及其增强版本(PARM++),进一步优化了图像生成质量。

分类 资讯 标签 CoT、 GenEval、 PARM++、 图像生成、 扩散模型、 零样本 发表评论

图像生成迎来CoT时刻!港中文首次提出文生图的o1推理和inference scaling新范式!

上午8时 2025/01/30 作者 极市干货

香港中文大学、北京大学和上海AI Lab的研究者提出了一种结合思维链推理的新方法来提升自回归图像生成的质量和文本一致性,显著提高了图像生成的性能。

分类 学术 标签 AI生成未来、 GenEval、 PARM++、 上海AI Lab、 北京大学、 香港中文大学 发表评论

刚刚!DeepSeek 再发新模型Janus-Pro 7B,统一多模态理解与生成

上午8时 2025/01/28 作者 AI工程化

DeepSeek团队发布创新型多模态框架Janus-Pro,支持384×384图像输入,表现超越现有统一模型,在GenEval和DPG-Bench测试中胜过DALL-E 3和Stable Diffusion。

分类 分享 标签 DeepSeek团队、 DPG-Bench、 GenEval、 Janus-Pro、 MIT许可、 多模态统一模型 发表评论

突发!DeepSeek除夕搞炸裂,开源多模态AI模型发布,仅128颗英伟达A100训练1周,性能碾压美国企业|

上午8时 2025/01/28 作者 钛媒体AGI

1月28日凌晨,人工智能社区Hugging Face发布了开源多模态AI模型Janus-Pro。它在多个基准测试中击败了OpenAI和Stable Diffusion,展示了强大的文本到图像生成能力。

分类 资讯 标签 84.19、 AI模型、 DeepSeek、 GenEval、 GitHub、 Janus-Pro 发表评论

2025年 AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Manus Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克

近期文章

  • sktime 是一个用于 Python 的时间序列分析库
  • typed-ffmpeg:为Python开发者提供现代、易用的FFmpeg封装库
  • Unsloth AI发了一个动态1bit的DeepSeek-R1-0528量化模型
  • Awesome-LLM-Post-training:为LLM的推理能力提升提供一站式资源宝库
  • “数据要素×”安徽分赛高校宣讲走进中科大,气象服务与低空经济赛道引发热烈反响

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
2025 年 5 月
一 二 三 四 五 六 日
 1234
567891011
12131415161718
19202122232425
262728293031  
« 4 月    

归档

  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×