GenEval 归档 - 每时AI

图像分词器造反了！华为 Selftok：自回归内核完美统一扩散模型，触发像素自主推理

2025年5月17日16时作者机器之心

GPT-3 到 GPT-4o，「next-token prediction」以简单粗暴的因果建模横扫

2025年4月13日23时作者极市干货

比基于离散 token 的模型实现更好的视觉质量。
>>
加入极市CV技术交流群，走在计算机视觉的最

2025年3月31日16时作者新智元

新智元报道编辑：LRS 好困。研究提出SANA-Sprint，一种高效的蒸馏扩散模型用于超快速文本到图像生成，仅需1-4步即可在H100上实现7.59 FID和0.74 GenEval的先进性能，并支持实时交互式生成。

2025年3月15日12时作者极市干货

0 blocks) 缩放到 4.8B (60 blocks)，重用小模型的知识。不用从头开始训练模型

2025年2月13日23时2025年2月11日23时作者开源AI项目落地

DeepSeek团队发布的新多模态模型Janus-Pro通过优化训练策略、扩展数据集和扩大模型规模提升了性能，实现高质量的文本到图像生成及多模态理解。

2025年2月8日16时作者量子位

来自港中文、北大和上海AI Lab的研究团队将思维链（CoT）与生成模型结合，显著提高了自回归图像生成的质量，并提出了潜力评估奖励模型（PARM）及其增强版本（PARM++），进一步优化了图像生成质量。

2025年1月30日8时作者极市干货

香港中文大学、北京大学和上海AI Lab的研究者提出了一种结合思维链推理的新方法来提升自回归图像生成的质量和文本一致性，显著提高了图像生成的性能。

2025年1月28日8时作者钛媒体AGI

1月28日凌晨，人工智能社区Hugging Face发布了开源多模态AI模型Janus-Pro。它在多个基准测试中击败了OpenAI和Stable Diffusion，展示了强大的文本到图像生成能力。