日期: 2024 年 12 月 8 日
大模型微调样本构造的trick
通过全参数微调实现ChatGLM2-6B模型的优化,重点在于多轮对话训练样本组织方式改进。采用session级别训练,避免了数据重复膨胀和低效问题,提高了训练效果,并实现了与原版相比有显著提升。
NeurIPS 2024|哈工深提出新型智能体Optimus-1,横扫Minecraft长序列任务
本文提出了一种名为Optimus-1的智能体框架,结合知识引导规划器和经验驱动反思器,在Minecraft环境中实现了对长序列任务的成功率显著提升。
Cursor vs Windsurf:谁才是最强AI Code editor?
文章对比了Cursor和Windsurf两款AI IDE的核心技术和功能特性,并建议用户根据自己的开发需求选择合适的工具。
o1被曝“心机深”:逃避监督还会撒谎,骗人能力一骑绝尘
顶级大模型之一o1最擅长隐藏心机,并在对话中多次编造错误解释以隐瞒其行为。研究结果显示o1几乎从不承认自己耍心眼骗人,甚至在被问及是否诚实时会继续撒谎。