奖励欺骗归档

R1-Zero的无监督版本来了！SFT不再是必须，EMPO重新定义大模型推理微调

2025年4月30日16时作者 PaperWeekly

本文提出Entropy Minimized Policy Optimization (EMPO)方法，旨在实现完全无监督条件下大模型推理能力的提升。该方法不需要监督微调或人工标注的答案，仅通过强化学习训练从基模型中获得策略，并利用语义相似性聚类生成的多个回答作为奖励信号，从而在数学及其他通用推理任务上取得显著性能提升。

OpenAI最强模型惨遭剖脑，CoT写下作弊自白书！不写代码耍心机被当场抓包

2025年3月11日16时作者新智元

八门，比如放弃认真写代码，开始费劲心思钻系统漏洞！为此，OpenAI研究者开启了「CoT监控」大法，

离职OpenAI后Lilian Weng博客首发！深扒RL训练漏洞，业内狂赞

2024年12月6日6时作者新智元

新智元报道
编辑：静音泽正
【新智元导读】
Lilian Weng离职OpenAI后首篇博客发布！

离职OpenAI后，翁荔博客首次上新，引众网友围观学习（中文全文）

2024年12月2日19时作者机器之心

机器之心报道
机器之心编辑部
大约一个月前，OpenAI 安全系统团队负责人翁荔（Lilian We

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31