Llama模仿Diffusion多模态涨分30%!不卷数据不烧卡,只需共享注意力分布
中国研究员联合DeepMind团队提出的新研究《Lavender: Diffusion Instruction Tuning》,通过“注意力对齐”让Stable Diffusion教Llama-3.2等模型“看图说话”,性能提升30%,且代码、模型、训练数据将全部开源。
中国研究员联合DeepMind团队提出的新研究《Lavender: Diffusion Instruction Tuning》,通过“注意力对齐”让Stable Diffusion教Llama-3.2等模型“看图说话”,性能提升30%,且代码、模型、训练数据将全部开源。
微信正式接入DeepSeek-R1,并支持满血版AI搜索。用户可通过微信搜索获取答案,生成结果带有社交属性可分享给朋友或朋友圈。此次接入不仅满足了用户的即时需求,还展示了微信与大模型R1的深度融合。
DeepSeek官方推荐部署DeepSeek-R1的四项内容:不使用系统提示词,把Temperature设置为0.6,提供缓解模型绕过思维的指南,并引入新的官方提示搜索和文件上传功能。
腾讯元宝接入DeepSeek-R1满血版,并支持联网搜索。它现在可以自由选择使用混元模型或DeepSeek-R1,覆盖微信公众号等腾讯生态信息源,提升了用户交互体验和知识准确性。
Meta GenAI团队提出的新框架VideoJAM显著提升了视频生成中的运动一致性,其效果超越了Sora等模型。VideoJAM能够处理复杂且迅速的动作,并与现有DiT模型无缝集成,提升运动质量达19.67%至4.88%。
Align-DS-V团队投稿
量子位 | 公众号 QbitAI
如果把DeepSeek-R1震撼硅谷
英伟达、卡内基梅隆大学团队通过ASAP方法解决了机器人敏捷动作训练难题,实现了宇树人形机器人的高难度动作表现。该框架分为预训练运动跟踪策略和差异动作模型两阶段,显著提高了机器人的灵活性和全身协调性。
OpenAI发布Deep Research功能,利用强化学习和深度搜索技术为用户提供复杂研究任务辅助。该功能在金融、科学及工程等领域具有强大能力,支持用户上传文件并生成多页研究报告。OpenAI表示Deep Research旨在促进AGI的科研探索,并强调其在特定领域的详细信息处理优势及局限性。
英伟达新硬件优化论文《DeepSeek-V3》绕过CUDA直接使用PTX编程语言进行优化,大幅提升硬件效率。专家指出这不代表完全脱离CUDA生态,而是展示出优化其他GPU的能力,并引发了对AI是否能编写底层代码的讨论。
杭州阿里云发布新春节礼大模型Qwen2.5-Max,其在多个基准测试中表现优于DeepSeek V3等模型。Qwen2.5-Max具备超大规模MoE模型特性和多模态能力展示功能。