微软GUI智能体OmniParser二代开源!推理延迟降低60%,大模型玩手机更溜了
OmniParser V2通过更大规模的数据集训练,提升了对小图标检测的准确率和推理速度。其与LLM结合后在多个基准测试中表现优异,平均准确率达到39.6%。
OmniParser V2通过更大规模的数据集训练,提升了对小图标检测的准确率和推理速度。其与LLM结合后在多个基准测试中表现优异,平均准确率达到39.6%。
微软发布3.48T token训练数据集及高质量处理框架,覆盖通用、代码、数学和问答等多领域。REDSTONE项目显著提升数据质量和处理效率。
文章讨论了AI工具对知识工作者批判性思维的影响,研究发现过度依赖生成式AI会减少个人的批判性思考。微软研究院联合剑桥大学的研究指出,信任AI会导致用户减少使用自己的判断和认知能力。
用代码表示Agent行动显著提升OpenAI Deep Research系统性能,Hugging Face团队复现时采用代码Agent框架,使验证集准确率从46%提升至55.15%,未来可扩展更多文件格式和处理建议。
首个FP4精度的大模型训练框架发布,可使所需存储和计算资源更少。与BF16相当的训练效果下,最高可达130亿参数规模的模型。研究团队采用定制化的FP4矩阵乘法、不同粒度量化策略以及新的梯度估计方法。
微软研究院发布AIOpsLab开源框架,旨在解决云运维中的复杂故障诊断和事件缓解问题。该工具提供了一个标准化且可扩展的平台来评估和增强不同云环境中的AI智能体,支持包括事件检测、根本原因分析和缓解在内的一系列运维任务。
微软研究院的MatterGen模型能够生成多种无机材料并精确控制其性质。该模型采用定制化扩散过程、等变性评分网络以及自适应模块,通过大规模数据集训练实现高效泛化。研究证明其在稳定性、多样性及物理性质引导方面优于现有方法。
论文探讨了Agent AI的全面框架,定义其为能够感知视觉和语言输入并产生具身行为的交互式系统。该框架强调跨现实性、多模态方式以及认知能力,未来可应用于虚拟现实和各类软件产品中。