“AI相机”如何成为全模态超级入口？百度下了一步妙棋

文丨谭梓馨

在2025年5月国内的AI产品应用榜（APP）上，出现了新奇一幕：国内AI产品中目前月活过亿才能站上牌桌，产品榜单前10名里，百度一家占据了3个名额，百度网盘、百度文库和文小言，而且百度网盘和百度文库的排名竟然比文小言还要高，这背后正在发生什么？

6月10日，在百度AI Day开放日上，答案终于揭晓。百度正在通过关键产品体系的生态融合和能力共建，构建全模态输入、处理到输出的完整交付AI能力，基于文库、网盘等应用的既有优势，推进百度AI进一步加速进入到生活、学习、工作等全场景中。

在现场，百度网盘、文库联合发布了行业首个“拍存管一体”的“AI相机”，致力于打造一个覆盖全场景、拥有全功能的全模态超级入口。

在生活场景，用户可以用AI相机进行人像直修和存储，提供美化、模版等修图能力；可以“拍摄万物”，AI将自动识别并推荐知识百科；用户还能将简笔画作生成AI创意涂鸦，举办线上画展；

在学习场景，用户可以“拍完就学”，使用AI拍照解题、错题举一反三、试卷去手写等能力，并将内容直接存储在网盘；

在工作场景，AI相机提供文件、票据的智能扫描、拍照翻译、图片转表格等能力，将纸质文件扫描成电子版，并实现文件格式的自由转换。

在这一切功能实现的背后，值得关注的技术部分是其内容操作系统“沧舟OS”，拥有对用户海量公私域内容、记忆库的全场景、全链路处理能力，通过中枢系统实现不同Agent之间的数据互通和智能调度。

据悉，百度文库、网盘目前有数百项Agent加持，可以灵活匹配各种任务需要，支持文字、语音、图片、视频等全模态、全格式的端到端输入/输出。

其中，多智能体协作则靠“GenFlow超能搭子”进行灵活调用，全新的2.0版本将于不久后上线，其依托于文库、网盘海量的公私域数据和用户记忆库，可完整交付更懂用户的个性化内容，还可以自主调用各种模型和工具，一次性并行生成多模态、多格式内容，同时支持后链路的编辑环节，在内容创作上灵活度更高。

性能方面，GenFlow超能搭子在任务完成耗时、交付内容丰富度、信息检索范围、内容编辑能力上也处于业内领先水准。

在现场，百度副总裁、文库事业部、网盘事业部负责人王颖分享了一些产品背后技术路径思考，构建全模态输入、处理到输出的完整交付AI能力是团队过去两年坚定不移的技术目标，团队基于对大模型的理解花了很长时间重构了整个产品工程架构，有了适合大模型的工程架构，才能做出适合大模型和用户之间的交互产品。

做一个好的AI产品或一个真正能干活儿的端到端交付的AI绝对不是一个单体的胜利，也不是模型好就可以了，还需要对用户深入的洞察和理解，对用户需求、痛点的实际调研，然后再通过工程的能力和组合模型的能力去解决这些问题。此外，还需要在性能上满足实际需求，尽管有不少AI也能全模态交付，但花1个小时还是10分钟给用户交付结果的体验是完全不一样的。

百度打造的多智能体协作系统和网盘、文库全新的工程生态架构，优势体现在两个维度，一个是广度，一个是深度。从广度来说，百度的目标是通用的多Agent的多元调度，希望能解决用户以后面临的所有问题，深度则是决定从哪个场景切入，哪个场景可能做得最深，然后逐步应该怎么去建设，目前，百度在整个通用的创作领域占据着优势地位，这也是基于百度文库和网盘打造AI相机的逻辑。

未来的百度文库和网盘背后都将有一套完整的AI能力提供支持，提供的AI相机能力和技术底座也是互通的，GenFlow超能搭子会根据用户不同的需求推荐不同的AI相机能力解决问题。

王颖表示，大模型时代正在让每一个产品打破它的上限和边界，也让产品跳出了简单的环节功能，百度文库或网盘将在全链路上更加充分发挥作用，实现从内容的起点到终点的服务全覆盖，破除用户对各种AI平台繁冗的无奈和对工具复杂的学习的成本，让大家所见即所得，顺畅地生产自己想要的东西。

-END-

扫描下方二维码，添加头部科技晶总微信！

（文：头部科技）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复