《超大规模操作手册:在 GPU 集群上训练 》Part2(SP,CP,PP,EP,5D)

cale-playbook
作者:nanotron
校正:pprp
Sequence Paralle

【科普】大模型蒸馏技术揭秘:用1%的成本,获得90%的AI能力!

文章介绍了大模型蒸馏技术及其应用。通过模型蒸馏,可以将庞大复杂的大型模型“瘦身”为更高效的小模型,节省计算资源、提高推理速度并适应更多平台。模型蒸馏的核心是知识转移和温度调控等技术,同时存在知识同质化、能力阉割及数据污染等问题,需要综合解决方案来应对。

【问小白】Deepseek R1 671B满血版,非常稳定,不卡、零延迟、不限次、全免费、随便用

随着用户量增长,DeepSeek访问受限。问小白接入了DeepSeek满血版671B,并采用专线部署,解决访问不稳定问题。问小白以快、稳、免费和智能等特点脱颖而出,提供即时搜索、创作工具及逻辑推理等功能。它还支持联网搜索及语音输入,确保用户体验流畅稳定且免费。

首批基于DeepSeek的“AI公务员”上岗

近日,镇江市数据局发布消息,本地化部署DeepSeek后单日数据处理量相当于全市公务员10年工作量总和。深圳福田区推出基于DeepSeek开发的AI员工,并推出《政务辅助智能机器人管理办法》为AI在政务领域的角色划定了制度边界。