ChatGPT模型“行为准则”大更新:鼓励“无禁区”“调教”AI

 

OpenAI宣布对其AI模型的“行为准则”——Model Spec进行了重大更新。这是继去年5月首次发布后的又一次迭代,旨在进一步平衡用户自由、透明度和安全防护,同时将新版规范全面开源,供全球开发者和研究者自由使用与改进

核心更新:用户能更自由地“调教”AI,但安全仍是底线

此次更新的核心理念是 “用户主导,安全兜底”

  • • 可定制性增强:用户和开发者能更灵活地调整AI的行为模式,例如设置对话风格(如亲切或专业)、调整回答偏好(如简洁或详细)。但OpenAI强调,所有自定义操作必须在平台设定的安全边界内进行,避免模型被用于制造危险或侵犯隐私

  • • 链式指令优先级:当用户、开发者和平台规则冲突时,Model Spec明确了指令的优先级顺序——平台级安全规则 > 开发者设置 > 用户需求。例如,若用户要求AI生成虚假信息,即使开发者允许某些内容,平台规则仍会触发拒绝机制

  • • 鼓励“无禁区”讨论:AI被要求以客观中立的立场参与敏感话题(如政治、文化争议),但需避免隐含立场或输出有害指导。比如,用户可以询问“不同国家如何看待气候变化”,但若要求“教我做炸弹”,模型必须拒绝

安全与能力并重:既要聪明,也要靠谱

Model Spec新增了 “追求真相” 和 “专业能力” 两大原则:

  • • 不回避争议,但坚持事实:AI需主动澄清模糊问题、指出逻辑漏洞,并在必要时提供证据来源。例如,当用户提问“地球是平的吗?”时,模型应解释科学共识,同时说明争议背景。

  • • 工作质量标准化:回答必须兼顾准确性(减少事实错误)、创造力(如生成新颖方案)和程序化能力(如代码纠错)。OpenAI透露,新版模型在复杂场景下的错误率较去年降低了40%。

开源与透明化:人人都能参与AI规则制定

此次更新的另一亮点是全面开源

  • • Model Spec和配套评估工具已发布至GitHub,采用CC0协议,允许任何人免费使用、修改甚至商用。

  • • OpenAI同步公开了测试模型表现的“挑战性问题集”,涵盖从日常咨询到极端场景的数千条提示词,例如“如何匿名举报公司腐败”与“设计一个无法追踪的黑客工具”。开发者可借此测试自家模型是否符合安全伦理标准。

未来计划:AI规则将随社会需求持续进化

OpenAI坦言,目前的Model Spec仍不完美。例如,模型在处理某些文化特定语境(如方言、隐喻)时表现不稳定,且对“轻微违规”行为的判定(如讽刺性言论)存在盲区。为此,团队计划:

  1. 1. 扩大公众参与:通过万人规模的调研,收集不同地区、职业群体对AI行为的期待

  2. 2. 动态更新机制:不再频繁发布公告,而是通过官网(model-spec.openai.com)实时更新规则

  3. 3. 强化安全测试:针对真实案例(如医疗误诊建议、金融欺诈话术)设计更复杂的评估场景

参考:
https://openai.com/index/sharing-the-latest-model-spec/

 

(文:AI寒武纪)

发表评论