复杂任务
Function Call已过时?MCP才是AI工具调用的未来!深度拆解与agent三者关系
最近 MOP 火得不行,但不少人对其理解仍停留在似懂非懂阶段。本文将梳理清楚 MCP、Function Call 和 Agent 三者之间的关系,并解释其区别和联系。
ICLR 2025 Spotlight |合成数据伪装术 vs 大模型火眼金睛,中大&上海AI Lab提出合成检测基准LOKI
中山大学联合上海人工智能实验室提出了LOKI,这是一个面向多模态合成数据检测的全新测试基准,涵盖图
CoT是否仍是增强Reasoning能力的必要工具?
MLNLP社区是国内外知名的机器学习与自然语言处理社区。本文系统探究了零样本CoT对推理大模型的影响,通过实验发现CoT提示增强了RLLMs的性能并抑制了过度反思,提出了关于提示设计和策略选择的研究方向。
DeepSeek昨夜上新!新旧版V3对比实测,代码能力飙升,震惊海外用户
DeepSeek上线新版本DeepSeek-V3-0324,参数增加至6850亿,性能提升显著。新版模型允许商用和模型蒸馏等行为,并在代码、数学等方面表现出色,引发网友期待R2和V4的发布。
Claude 悄悄进化:全新“思考”工具解锁,AI 也能像人一样“停下来想想”了
Claude 模型新增 ‘think tool’ 功能,可在生成答案过程中暂停思考并整理信息。Anthropic 官方称其特别适合处理信息过载、规则繁琐及步步为营等复杂场景。通过 JSON 配置简单集成到应用中,并在 T-Bench 和 SWE-Bench 测试中证明了显著提升性能。