360智脑开源Light-R1!1000美元数学上首次从零超越DeepSeek-R1-Distill 下午4时 2025/03/06 作者 机器之心 2B 模型,以及全部训练数据、代码。仅需 12 台 H800 上 6 小时即可训练完成,从没有长思维
GPT-4.5登场!一个让Sam感到真实的AI,看到基准分数后,网友炸锅:2T参数都白训了? 下午2时 2025/02/28 作者 AI进修生 ainee,欢 迎阅读本期新文章。 Sam Altman刚刚宣布:GPT-4.5 准备好了。 好消息
不容错过!Oumi 平台,集训练、评估、部署于一体的 AI 神器 下午2时 2025/02/15 作者 小兵的AI视界 据准备、模型训练到评估和部署,每一个环节都充满挑战,如何简化整个 AI 模型开发生命周期,是亟待解决
一文理解推理大模型-Understanding Reasoning LLMs 下午7时 2025/02/07 作者 机器学习算法与自然语言处理 业研究人员。 社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进
从DeepSeek R1看推理模型的四种进化路线 下午12时 2025/02/06 作者 AGI Hunt DeepSeek R1 的推理型大模型不仅强在技术,更让人震惊的是,它们竟然自己学会了「 一步步思考
用慢思考提升模型安全性,北交大、鹏城实验室提出系统2对齐 下午4时 2025/01/23 作者 机器之心 AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000
全是细节|大模型SFT的100个关键点 下午2时 2025/01/01 作者 机器学习算法与自然语言处理 MLNLP 社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企
如何提升预训练LLMs:从零打造到微调优化的全攻略 下午2时 2024/12/27 作者 AI技术研习社 文章介绍了在现有预训练模型基础上进行微调的方法,包括监督式微调、偏好对齐方法(如基于人类反馈的强化学习和直接偏好优化)、单体偏好优化等,强调了其在提升模型实用性和适应特定任务中的优势。