GiantPandaCV
书生·浦语大模型升级,突破思维密度,4T数据训出高性能模型
上海人工智能实验室对书生大模型进行了升级,推出了InternLM3.0版本,通过精炼数据框架提升了数据效率和思维密度,节约了75%以上训练成本,并实现了常规对话与深度思考能力融合。
PyTorch 原生FP8训练进展
PyTorch通过FSDP2、DTensor和torchao实现Float8训练提升吞吐量50%,展示了Float8在不同模型规模上的有效性,并进行了模型质量和评估基准验证。