Preference Alignment 归档

如何提升预训练LLMs：从零打造到微调优化的全攻略

2024年12月27日14时作者 AI技术研习社

文章介绍了在现有预训练模型基础上进行微调的方法，包括监督式微调、偏好对齐方法（如基于人类反馈的强化学习和直接偏好优化）、单体偏好优化等，强调了其在提升模型实用性和适应特定任务中的优势。