多模态输入
谷歌通用推理模型来了:可解答数学、物理等问题,不直接给答案
谷歌DeepMind推出全新测试模型Gemini 2.0 Flash Thinking,能够通过’思考’解答物理问题,并支持多模态输入和输出。
一篇78页大模型GUI Agents全面综述~
本文综述了LLM驱动的GUI智能体的发展和进步,讨论了它们的历史演变、核心组件和技术,并展示了智能体如何通过自然语言处理技术执行多种任务,包括Word、Photos、浏览器、Adobe Acrobat和PowerPoint操作等。