日期: 2025 年 3 月 12 日
CVPR 2025 满分论文!重建 vs 生成:解决扩散模型中的优化难题
本文提出了一种名为VA-VAE的方法,通过将视觉词元分析器的潜在空间与预训练的视觉基础模型对齐,解决了潜在扩散模型中重建与生成之间的优化难题。基于该方法构建的LightningDiT模型在ImageNet 256×256生成任务上取得了最佳性能,FID得分1.35,并在64个epoch内达到2.11的FID得分,显著提升了训练效率。
抱上AI科研搭子的大腿后,读英文论文像读中文一样丝滑!
大模型时代,百度翻译的新功能AI论文精翻让翻译论文变得简单快捷。不仅能提供精准翻译,还能结合上下文理解语境,提供地道译文,同时保留原版论文的排版风格。
Agent的时代来临?国产首款创作型Agent,让你轻松创作互动小说
一款名为‘谜境Agent’的国产AI创作工具简化了互动小说创作流程,从一句话概述到生成剧本大纲、角色图等,全过程仅需5-10分钟。
国产AI创作工具实测:谜境Agent辅助互动小说创作效果展示
一款国产AI创作工具“谜境Agent”上线,让互动小说从繁琐耗时变为轻松高效,仅需5-10分钟完成剧本大纲、人物设定和场景图等。极大提升创作者效率,未来有望提供更多样化角色风格模板及支持更复杂剧情分支设计。
这个 AI 智能耳机在放入充电盒时可充当录音机并进行转录
RecDot系列耳机通过AI功能颠覆传统无线耳机,支持实时会议记录、翻译及个性化提醒等功能,覆盖清晨通勤至运动场景,旨在成为智能生活中的重要工具。
Manus、DeepSeek等明星AI产品的“隐形推手”
Manus与阿里通义千问达成战略合作,共同开发通用智能体产品。此前Manus因使用阿里Qwen微调模型而备受关注,其核心在于阿里的开源模型和算力支持。这种合作模式正助力更多创新型AI公司的发展。
突发,谷歌多模态Gemma 3开源!
Gemma 3 是一个开源的多模态、多语言 LLM,拥有128k token 的上下文窗口,并提供4种不同大小的模型,支持140多种语言,在LMArena中排名第一。
OpenAI凌晨突放大招!抛出一套智能体开发API和工具包,助力开发者构建AI代理!
OpenAI发布Responses API等工具简化AI代理开发,旨在构建实用可靠的AI Agent。新API结合了Chat Completions和Assistants API功能,并包括内置搜索、文件搜索和计算机使用工具。未来还将推出更多集成工具。