70B 归档 - 每时AI

14款大模型能耗爆炸：DeepSeek竟然第一

2025年6月20日23时作者智东西

最新研究揭秘推理模型的环境成本，不同参数规模的模型在能耗、碳排量和性能之间的差异显著，推理模型能耗与碳排量为非推理模型的4-6倍，但未带来准确性提升。

2025年5月11日8时作者 NLP工程化

Agentica-project/verl-pipeline 提供高效灵活的解决方案支持高达70B参数模型和数百个GPU训练，集成多种主流LLM框架及强化学习算法。

2025年1月25日8时作者 NLP工程化

UMbrellA 是一种工具，通过独特技术组合让70B级别模型在RTX 4070Ti上达到类似人类阅读速度的性能，特别擅长编程任务。

2025年1月8日22时作者 GiantPandaCV

PyTorch通过FSDP2、DTensor和torchao实现Float8训练提升吞吐量50%，展示了Float8在不同模型规模上的有效性，并进行了模型质量和评估基准验证。