“AI相机”如何成为全模态超级入口?百度下了一步妙棋

文丨谭梓馨
在2025年5月国内的AI产品应用榜(APP)上,出现了新奇一幕:国内AI产品中目前月活过亿才能站上牌桌,产品榜单前10名里,百度一家占据了3个名额,百度网盘、百度文库和文小言,而且百度网盘和百度文库的排名竟然比文小言还要高,这背后正在发生什么?

6月10日,在百度AI Day开放日上,答案终于揭晓。百度正在通过关键产品体系的生态融合和能力共建,构建全模态输入、处理到输出的完整交付AI能力,基于文库、网盘等应用的既有优势,推进百度AI进一步加速进入到生活、学习、工作等全场景中。

在现场,百度网盘、文库联合发布了行业首个“拍存管一体”的“AI相机”,致力于打造一个覆盖全场景、拥有全功能的全模态超级入口。

在生活场景,用户可以用AI相机进行人像直修和存储,提供美化、模版等修图能力;可以“拍摄万物”,AI将自动识别并推荐知识百科;用户还能将简笔画作生成AI创意涂鸦,举办线上画展;

在学习场景,用户可以“拍完就学”,使用AI拍照解题、错题举一反三、试卷去手写等能力,并将内容直接存储在网盘;

在工作场景,AI相机提供文件、票据的智能扫描、拍照翻译、图片转表格等能力,将纸质文件扫描成电子版,并实现文件格式的自由转换。

在这一切功能实现的背后,值得关注的技术部分是其内容操作系统“沧舟OS”,拥有对用户海量公私域内容、记忆库的全场景、全链路处理能力,通过中枢系统实现不同Agent之间的数据互通和智能调度。

据悉,百度文库、网盘目前有数百项Agent加持,可以灵活匹配各种任务需要,支持文字、语音、图片、视频等全模态、全格式的端到端输入/输出。

其中,多智能体协作则靠“GenFlow超能搭子”进行灵活调用,全新的2.0版本将于不久后上线,其依托于文库、网盘海量的公私域数据和用户记忆库,可完整交付更懂用户的个性化内容,还可以自主调用各种模型和工具,一次性并行生成多模态、多格式内容,同时支持后链路的编辑环节,在内容创作上灵活度更高。

性能方面,GenFlow超能搭子在任务完成耗时、交付内容丰富度、信息检索范围、内容编辑能力上也处于业内领先水准。

在现场,百度副总裁、文库事业部、网盘事业部负责人王颖分享了一些产品背后技术路径思考,构建全模态输入、处理到输出的完整交付AI能力是团队过去两年坚定不移的技术目标,团队基于对大模型的理解花了很长时间重构了整个产品工程架构,有了适合大模型的工程架构,才能做出适合大模型和用户之间的交互产品。

做一个好的AI产品或一个真正能干活儿的端到端交付的AI绝对不是一个单体的胜利,也不是模型好就可以了,还需要对用户深入的洞察和理解,对用户需求、痛点的实际调研,然后再通过工程的能力和组合模型的能力去解决这些问题。此外,还需要在性能上满足实际需求,尽管有不少AI也能全模态交付,但花1个小时还是10分钟给用户交付结果的体验是完全不一样的。

百度打造的多智能体协作系统和网盘、文库全新的工程生态架构,优势体现在两个维度,一个是广度,一个是深度。从广度来说,百度的目标是通用的多Agent的多元调度,希望能解决用户以后面临的所有问题,深度则是决定从哪个场景切入,哪个场景可能做得最深,然后逐步应该怎么去建设,目前,百度整个通用的创作领域占据着优势地位,这也是基于百度文库和网盘打造AI相机的逻辑

未来的百度文库和网盘背后都将有一套完整的AI能力提供支持,提供的AI相机能力和技术底座也是互通的,GenFlow超能搭子会根据用户不同的需求推荐不同的AI相机能力解决问题。

王颖表示,大模型时代正在让每一个产品打破它的上限和边界,也让产品跳出了简单的环节功能,百度文库或网盘将在全链路上更加充分发挥作用,实现从内容的起点到终点的服务全覆盖,破除用户对各种AI平台繁冗的无奈和对工具复杂的学习的成本,让大家所见即所得,顺畅地生产自己想要的东西。

-END-

扫描下方二维码,添加头部科技晶总微信!

(文:头部科技)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往