日期: 2025 年 2 月 25 日
DeepSeek开源周Day1,硬核发布…
DeepSeek开源了FlashMLA,这是一个为Hopper GPU开发的高效MLA解码内核,已投入生产使用,支持BF16和分页KV缓存(块大小64),在H800上可实现高达580 TFLOPS的计算性能。
阿里QwQ-Max 以及 Qwen2.5-Max即将开源
阿里发布Qwen Chat中的新模型’思考(QwQ)’,基于Qwen2.5-Max的推理模型,支持思考、联网和Agent工具。预览版本在数学理解、编程和代理方面表现优异,计划于近期开放源代码并发布正式版APP。
编码能力超 DeepSeek R1、o3-mini!全球首个混合推理模型 Claude 3.7 Sonnet 重磅发布
Anthropic 推出 Claude 3.7 Sonnet 混合推理模型,不仅可即时回答问题,还能进行逐步思考。它在编码方面表现出色,并推出代理编程工具 Claude Code。Claude 3.7 Sonnet 的价格与前代相同,适用于免费至企业多个计划。
DeepSeek开源第二天,主打一个硬核开源。
今天是DeepSeek开源周的第二天,Alibaba的QwQ-Max预览版引起了关注。DeepEP项目在GPU上实现了显著性能提升,并且已获1000+ GitHub星。DeepSeek强调硬件效率和低延迟通信,其新开源技术让数据传输和计算实现重叠。
阿里 Qwen Chat 平台上线“深度思考”功能了
阿里Qwen团队在Qwen Chat平台上线了‘深度思考(QwQ)’功能,该模型基于Qwen2.5-Max构建,具备多模态推理能力,涵盖数学理解、编程和AI智能体领域。通过联网搜索与思维链展示结合的模式,重新定义AI的’思考’方式。