ChatGPT模型“行为准则”大更新：鼓励“无禁区”“调教”AI

2025年2月13日12时作者 AI寒武纪

OpenAI宣布对其AI模型的“行为准则”——Model Spec进行了重大更新。这是继去年5月首次发布后的又一次迭代，旨在进一步平衡用户自由、透明度和安全防护，同时将新版规范全面开源，供全球开发者和研究者自由使用与改进

核心更新：用户能更自由地“调教”AI，但安全仍是底线

此次更新的核心理念是 “用户主导，安全兜底”

• 可定制性增强：用户和开发者能更灵活地调整AI的行为模式，例如设置对话风格（如亲切或专业）、调整回答偏好（如简洁或详细）。但OpenAI强调，所有自定义操作必须在平台设定的安全边界内进行，避免模型被用于制造危险或侵犯隐私
• 链式指令优先级：当用户、开发者和平台规则冲突时，Model Spec明确了指令的优先级顺序——平台级安全规则 > 开发者设置 > 用户需求。例如，若用户要求AI生成虚假信息，即使开发者允许某些内容，平台规则仍会触发拒绝机制
• 鼓励“无禁区”讨论：AI被要求以客观中立的立场参与敏感话题（如政治、文化争议），但需避免隐含立场或输出有害指导。比如，用户可以询问“不同国家如何看待气候变化”，但若要求“教我做炸弹”，模型必须拒绝

安全与能力并重：既要聪明，也要靠谱

Model Spec新增了 “追求真相” 和 “专业能力” 两大原则：

• 不回避争议，但坚持事实：AI需主动澄清模糊问题、指出逻辑漏洞，并在必要时提供证据来源。例如，当用户提问“地球是平的吗？”时，模型应解释科学共识，同时说明争议背景。
• 工作质量标准化：回答必须兼顾准确性（减少事实错误）、创造力（如生成新颖方案）和程序化能力（如代码纠错）。OpenAI透露，新版模型在复杂场景下的错误率较去年降低了40%。

开源与透明化：人人都能参与AI规则制定

此次更新的另一亮点是全面开源

• Model Spec和配套评估工具已发布至GitHub，采用CC0协议，允许任何人免费使用、修改甚至商用。
• OpenAI同步公开了测试模型表现的“挑战性问题集”，涵盖从日常咨询到极端场景的数千条提示词，例如“如何匿名举报公司腐败”与“设计一个无法追踪的黑客工具”。开发者可借此测试自家模型是否符合安全伦理标准。

未来计划：AI规则将随社会需求持续进化

OpenAI坦言，目前的Model Spec仍不完美。例如，模型在处理某些文化特定语境（如方言、隐喻）时表现不稳定，且对“轻微违规”行为的判定（如讽刺性言论）存在盲区。为此，团队计划：

1. 扩大公众参与：通过万人规模的调研，收集不同地区、职业群体对AI行为的期待
2. 动态更新机制：不再频繁发布公告，而是通过官网（model-spec.openai.com）实时更新规则
3. 强化安全测试：针对真实案例（如医疗误诊建议、金融欺诈话术）设计更复杂的评估场景

参考:
https://openai.com/index/sharing-the-latest-model-spec/

⭐

（文：AI寒武纪）

发表评论取消回复