多模态输入归档

Long-RL：让强化学习应对超长序列任务的全新框架

2025年7月12日8时作者 NLP工程化

Long-RL提供了一种新的框架来应对超长序列任务的强化学习训练，支持小时级长视频、多模态输入和图像/视频生成模型的强化学习。

2025年6月21日14时作者 AI技术研习社

2025年AI Agent元年来临，大模型进化成能‘干活’的智能体。Agent具备感知环境、理解目标、拆解任务、调用工具等能力，从被动等待指令到主动规划执行并学习反馈。

2025年4月1日14时作者 AI先锋官

上发表演讲，他提到：
“仅靠文本训练，我们无法实现达到人类水平的AI。”
他表示，且不说达到人类的水

2025年3月14日16时作者量子位

谷歌推出Gemini原生图像生成测试版，支持图文混排输出、多轮编辑及基于世界知识的生成等新功能。

2025年3月14日12时作者每日AI新工具

Google AI Studio中的Gemini 2.0 Flash实验性功能支持原生图像生成和多模态对话式编辑。它能根据用户故事描述生成插图，并且允许通过多轮对话来修改图像细节，同时还提供个性化的AI研究助手Deep Research。

2025年2月16日14时作者 AI信息Gap

腾讯给微信接入了DeepSeek-R1，目前只有少数用户通过灰度推送优先体验新功能。使用方法是检查微信版本是否为最新版并确认搜索框中是否有AI搜索选项。微信的AI搜索支持联网搜索且不可关闭，默认模式为快速回答，深度思考模式提供更详细的信息。该功能现处于实验阶段，未来可能进一步完善。

2025年2月6日12时作者新智元

谷歌发布Gemini 2.0全家桶，支持2M上下文和代码执行能力的新模型已向所有人开放。Gemini 2.0 Pro、Flash及Lite版本分别适合不同需求的应用场景，并在多项评测中表现出色。新模型还展示了强大的编码能力和多模态功能。