视频生成的测试时Scaling时刻!清华开源Video-T1,无需重新训练让性能飙升
研究团队首次提出Video-T1方法,通过Test-Time Scaling显著提升视频生成性能,提出Tree-of-Frames方法优化搜索效率和生成质量。
研究团队首次提出Video-T1方法,通过Test-Time Scaling显著提升视频生成性能,提出Tree-of-Frames方法优化搜索效率和生成质量。
谷歌发布Gemini 2.5 Pro实验版,通过显著增强的基础模型和改进的后训练技术,在多个主流基准测试中实现了大幅领先,尤其在推理和代码能力上表现惊人。
阿里云千问团队发布了Qwen2.5-VL-32B-Instruct模型。该模型在多个方面实现了重要突破:优化了模型规模、提升了性能,并在视觉理解和数学推理等方面取得了显著进步。
DeepSeek发布V3-0324版本,推理性能大幅提升,并在多项基准测试中超越GPT-4.5。这次更新还增强了前端开发能力、工具调用能力和中文写作能力,同时采用了更高效的训练方法。
ChatGPT通过4o模型发布新功能,能够生成高质量图像,并根据对话进行修改。它能处理复杂的场景、风格多样且指令遵循能力强。然而,也存在一些限制和潜在问题。
新版V3-0324模型参数量达6710亿,编码能力和编程能力媲美Claude 3.7 Sonnet。新版本引入了创新性机制以平衡负载,并提升了推理速度。V3在开源许可方面也更加宽松,MIT许可使得商业应用门槛大幅降低。
Cursor v0.48增加自定义模式功能,并在Windows平台上提高了MCP稳定性。新增的工具如Codebase、Web搜索等功能增强了Search模块。用户可以在设置中启用和配置自定义模式。
2025年3月26日,北京天气阴。文章讨论了多模态RAG技术在视觉领域和目标检测中的应用,并介绍了GPT-4发布的新功能及OpenAI承认的技术风险。同时,文章还提到了Vision-R1方案及其强化学习奖励函数设计。
中国初创AI企业纷纷调整战略,采用DeepSeek模型。零一万物、月之暗面和百川智能等公司停止基础模型开发,转而专注于应用层面。智谱AI则尝试多业务线发展,并计划IPO维持高投入模式。