李飞飞:视觉智能的三层阶梯

两位AI研究巨擘在NeurIPS会议上讨论时发现「视觉智能三阶阶梯」与Pearl因果推理阶梯有相似之处。李飞飞表示受到Pearl著作《为什么》启发,并称「视觉智能阶梯」灵感源自Pearl的理论,展示出AI各领域潜在联系和普遍规律。

谷歌Gemini 2.0归来仍然是Agentic!

谷歌发布Gemini 2.0 Flash AI多模态模型,在快速响应下提供增强性能,支持图像、视频及音频等多模式输入输出,能调用Google搜索和代码执行工具。项目Astra探索通用AI助手功能,Project Mariner从浏览器开始研究人机交互未来;Jules帮助开发人员。

Flux模型PuLID换脸工作流

字节的Flux PuLID 0.91版更新,相比前版速度更快。PuLID通过结合Lightning T2I分支和扩散分支,并引入对比对齐损失和精确的身份ID损失来实现高效身份ID定制,保持图像元素一致。优点是速度快、保真度高;缺点是换脸动作单调。

聊聊我们公众号最近的变化

最近,粉丝朋友反馈公众号有所变化,作者与读者对话时提到接入了AI助手小逸、声音克隆和AI配图等技术,提升服务效率和用户体验;同时强调AI助手提供的信息主要来源于知识库,并建议遇到无法解答的问题可以添加微信联系。

OpenAI还在挤牙膏,Gemini 2.0 王炸登场!谷歌发力真 AI Agent!

Google DeepMind 的 Gemini 2.0 发布标志着 AI 发展进入智能体时代,具备理解、推理、规划和执行能力。Gemini 2.0 支持图像、音频输入与输出,并支持多种工具调用,展示了多模态 AI 和通用 AI 助手、浏览器智能体及代码助手等应用场景潜力。

将艺术风格们一网打尽,这个AI生图模型击败了Midjourney和Recraft

通过横向对比星流、Midjourney和Recraft三个AI生图工具的功能多样性、操作便捷性和语义理解能力,文章展示了StarFlow的高级审美效果。测试结果显示StarFlow在多个风格场景下表现出色,尤其擅长处理细节和复杂场景。作者认为StarFlow具有成为主流生图工具的潜力。