微软研究院
拒绝不必要Think:微软&北大提出第一种自适应大型混合推理模型
微软研究院与北大提出的大规模混合推理模型LHRMs能够在用户查询时自适应地决定是否进行思考,实现更快、更自然的日常交互,并在推理和通用能力方面超越现有模型的同时显著提高了效率。
微软Sonora:人机共创的 3D 音频世界! 用 AI 重新思考声景及其对焦虑和认知负荷的影响
Sonora是由微软研究院开发的人工智能系统,提供实时语音驱动的沉浸式3D音频环境创建与导航,旨在通过个性化和互动性促进放松并减轻焦虑。
微软开源实时交互模型:提升Agent动态复杂处理能力
微软研究院开源了实时交互世界模型MineWorld,以Transformer为核心结合《我的世界》。MineWorld参数量少于Oasis,在多方面表现更优,包括视频质量、可控性和推理速度等方面。MineWorld架构由Transformer解码器、视觉标记器和动作标记器组成,实现高效并行解码算法提高生成效率。
微软研究院发布了个原生 1-bit 的大语言模型:bitnet-b1.58-2B-4T
微软发布原生1-bit大语言模型bitnet-b1.58-2B-4T,其在内存占用和CPU推理延迟上大幅降低,并且性能接近全精度模型。
微软开源多模态AI基础模型!无需额外微调轻松拿捏网页、机器人
微软研究院开源Magma模型,首个能理解多模态输入并进行实际操作的基础模型,在CVPR会议上获得接收。该模型融合视觉、语言与动作能力,使用Set-of-Mark和Trace-of-Mark两大标注方法提高准确性。
微软GUI智能体OmniParser二代开源!推理延迟降低60%,大模型玩手机更溜了
OmniParser V2通过更大规模的数据集训练,提升了对小图标检测的准确率和推理速度。其与LLM结合后在多个基准测试中表现优异,平均准确率达到39.6%。