分享归档 - 第321页共323页

从啥也不会到DeepSpeed——一篇大模型分布式训练的学习过程总结

2024-12-152024-11-22 作者极市干货

↑ 点击
蓝字
关注极市平台
作者丨elihe@知乎（已授权）
来源丨https://zhuanla

2024-12-152024-11-22 作者极市干货

MMRel是首个大规模、高质量的物体间关系理解数据集，用于评估和提升多模态大模型能力。包含超过22K问答对，覆盖三个领域与三种关系类型，通过半自动流程生成并提供高难度子集测试极限性能。

2024-12-152024-11-21 作者新智元

华中科技大学提出MoE Jetpack框架，利用密集模型预训练权重微调为混合专家模型，显著提升精度和收敛速度。

2024-12-152024-11-21 作者极市干货

↑ 点击
蓝字
关注极市平台
作者丨AI生成未来
来源丨AI生成未来
编辑丨极市平台
极市导读
模型

2024-12-152024-11-21 作者极市干货

本文介绍了如何使用TensorRT加速通过PyTorch Eager Mode量化接口生成的量化模型，包括量化步骤、修复ONNX模型图以及构建和验证TensorRT引擎等内容。

2024-11-21 作者每时AI

小型语言模型因其低延迟、成本效益等优势受到青睐，特别适用于资源受限的环境和领域知识获取。介绍了构建SLMs的基础概念及技术，如架构、训练技术和从大型语言模型（LLMs）获取SLMs的方法，包括剪枝、知识蒸馏和量化。分析了SLMs在问答、编程、推荐系统等领域的应用，并讨论了在移动设备上的部署策略。

2024-11-20 作者每时AI

↑ 点击
蓝字
关注极市平台
作者丨Yansong Qu等
来源丨自动驾驶之心
编辑丨极市平台
极市

2024-11-20 作者每时AI

↑ 点击
蓝字
关注极市平台
作者丨猛猿
来源丨大猿搬砖简记
编辑丨极市平台
极市导读
关于强化学习

2024-11-20 作者每时AI

↑ 点击
蓝字
关注极市平台
作者丨李川皓上海人工智能实验室、北京理工大学
来源丨PaperWee