DeepSeek开源第三弹!极致榨干GPU,FP8训推秘籍公开
DeepGEMM是DeepSeek开源的一款支持FP8 GEMM的库,为V3/R1训练和推理提供动力,在Hopper GPU上性能高达1350+ FP8 TFLOPS。该库采用JIT即时编译技术,核心逻辑约为300行,仅支持英伟达Hopper Tensor Core架构,设计简单高效,且在某些形状上的表现优异。
DeepGEMM是DeepSeek开源的一款支持FP8 GEMM的库,为V3/R1训练和推理提供动力,在Hopper GPU上性能高达1350+ FP8 TFLOPS。该库采用JIT即时编译技术,核心逻辑约为300行,仅支持英伟达Hopper Tensor Core架构,设计简单高效,且在某些形状上的表现优异。
首个混合推理模型Claude 3.7 Sonnet支持实时和扩展思考模式;Anthropic推出编码工具Claude Code简化开发流程;用户可选择不同模式控制思考预算。
网友:突破AI基础设施极限。DeepSeek发布首个用于MoE模型训练和推理的开源EP通信库,支持NVLink和RDMA等硬件,提供高吞吐量且低延迟的全对全GPU内核,加速大规模MoE模型任务。
阿里通义千问团队推出QwQ-Max-Preview深度思考模型,支持联网搜索,并展示了其在电影评论、代码编写、数学题解答以及游戏开发等方面的超强能力。
国家知识产权局宣布依法驳回63件与DeepSeek相关的商标注册申请,称部分企业为抢注热点商标谋取不当利益,将保持打击商标恶意注册行为的高压态势。
国内AI投资热潮持续升温,阿里巴巴宣布未来三年投入超3800亿元用于云和AI基础设施建设,腾讯也在大力推广其AI模型应用。科技巨头们正加速布局AI领域,推动产业发展。