微软研究院
微软开源多模态AI基础模型!无需额外微调轻松拿捏网页、机器人
微软研究院开源Magma模型,首个能理解多模态输入并进行实际操作的基础模型,在CVPR会议上获得接收。该模型融合视觉、语言与动作能力,使用Set-of-Mark和Trace-of-Mark两大标注方法提高准确性。
微软GUI智能体OmniParser二代开源!推理延迟降低60%,大模型玩手机更溜了
OmniParser V2通过更大规模的数据集训练,提升了对小图标检测的准确率和推理速度。其与LLM结合后在多个基准测试中表现优异,平均准确率达到39.6%。
微软发布3.48T token训练数据集+高质量处理管线,覆盖通用、代码、数学、问答等关键领域
微软发布3.48T token训练数据集及高质量处理框架,覆盖通用、代码、数学和问答等多领域。REDSTONE项目显著提升数据质量和处理效率。
DeepSeek 越强大,我就越容易变蠢?
文章讨论了AI工具对知识工作者批判性思维的影响,研究发现过度依赖生成式AI会减少个人的批判性思考。微软研究院联合剑桥大学的研究指出,信任AI会导致用户减少使用自己的判断和认知能力。
OpenAI Deep Research“被开源”:24小时成功复现,揭秘背后技术细节
用代码表示Agent行动显著提升OpenAI Deep Research系统性能,Hugging Face团队复现时采用代码Agent框架,使验证集准确率从46%提升至55.15%,未来可扩展更多文件格式和处理建议。
大模型训练开销还能更小!微软推出首个FP4训练框架,训练效果与BF16相当
首个FP4精度的大模型训练框架发布,可使所需存储和计算资源更少。与BF16相当的训练效果下,最高可达130亿参数规模的模型。研究团队采用定制化的FP4矩阵乘法、不同粒度量化策略以及新的梯度估计方法。
微软研究院开源AIOpsLab:一个AI驱动的云运维框架
微软研究院发布AIOpsLab开源框架,旨在解决云运维中的复杂故障诊断和事件缓解问题。该工具提供了一个标准化且可扩展的平台来评估和增强不同云环境中的AI智能体,支持包括事件检测、根本原因分析和缓解在内的一系列运维任务。