GRPO=高级版拒绝采样?强化学习祛魅时刻:负样本“去芜存菁”才是关键! 下午4时 2025/05/20 作者 PaperWeekly PO 这样的算法虽然主流,但它需要额外的网络(critic network),搞得比较复杂和麻烦。
什么样的图像才是好的图像?近200篇文献总结图像质量检测的最新进展与挑战 下午11时 2025/03/24 作者 PaperWeekly ts, Analysis, and Future Outlook 作者单位: 北京大学、厦门大学 论
货拉拉等发布LalaEval:面向领域大模型的端到端人工评测框架 下午11时 2025/01/14 作者 PaperWeekly ©PaperWeekly 原创 · 作者 | 孙崇衍 单位 | 香港中文大学博士生 研究方向 | 大
NeurIPS 2024 突破现有方法瓶颈!浙工商、北大等提出相关反馈的视频时序定位新任务 下午11时 2025/01/02 作者 PaperWeekly 概览: 本文介绍一篇 NeurIPS 2024 的工作,提出了一种新的视频时序定位扩展任务。传统的视