多模态输入
【Agent专题】开局篇:Agent的崛起!Agent的核心技术栈解密!Agent看见智能未来!
2025年AI Agent元年来临,大模型进化成能‘干活’的智能体。Agent具备感知环境、理解目标、拆解任务、调用工具等能力,从被动等待指令到主动规划执行并学习反馈。
【一手实测】字节豆包 1.6 + Trae + 火山 MCP + FaaS:AI云原生 Agent 开发部署全流程体验!
山引擎在 2025 原动力大会上,也端出了自家的豆包大模型:Doubao-Seed-1.6 系列。
免费使用google Deep Research,Gemini 助手一系列重大升级
Google AI Studio中的Gemini 2.0 Flash实验性功能支持原生图像生成和多模态对话式编辑。它能根据用户故事描述生成插图,并且允许通过多轮对话来修改图像细节,同时还提供个性化的AI研究助手Deep Research。
重磅!谷歌开源Gemma-3模型:支持多模态、128K输入,27B版本在大模型匿名竞技场超过DeepSeeK V3,免费商用授权
Google开源第三代Gemma 3系列大模型,包含4个不同参数规模版本,支持多模态输入,并且表征能力非常强大。Gemma 3系列在多个评测中表现优秀,排名全球第9。
微信 + DeepSeek-R1:这是第一手实测报告,有料!
腾讯给微信接入了DeepSeek-R1,目前只有少数用户通过灰度推送优先体验新功能。使用方法是检查微信版本是否为最新版并确认搜索框中是否有AI搜索选项。微信的AI搜索支持联网搜索且不可关闭,默认模式为快速回答,深度思考模式提供更详细的信息。该功能现处于实验阶段,未来可能进一步完善。
谷歌反击,最强Gemini 2.0全家桶砸场DeepSeek!物理模拟编码惊人Jeff Dean站台
谷歌发布Gemini 2.0全家桶,支持2M上下文和代码执行能力的新模型已向所有人开放。Gemini 2.0 Pro、Flash及Lite版本分别适合不同需求的应用场景,并在多项评测中表现出色。新模型还展示了强大的编码能力和多模态功能。