如何让 AI 来自己优化提示词

如何让 AI 来自己优化提示词?

从宝玉老师那看到一个有意思的项目自监督提示优化(SPO),核心流程如下:

1.种子输入:仅需提供初始提示词和少量测试问题(无需标注答案)。
2.优化阶段:AI根据当前最优提示生成改进版
3.测试阶段:用新旧提示分别生成两版输出
4.评估阶段:AI自动比较两版输出,选出更优结果对应的提示
5.优选保留:获胜的提示成为下一轮优化的基准
6.循环迭代:达到预设迭代次数或性能稳定时停止

运作机制:

*模仿进化算法,但仅保留新旧候选者进行”两两对决”
*通过LLM自带的因果推理能力,将输出质量映射回提示词优劣判断
*优化过程中自动对齐模型对任务的内部认知

该方法在实验数据中展现出比人工设计提示词平均提升1.9个百分点的效果,特别适合缺乏标注数据但需高频调整提示词的真实场景应用。

从这套方法生成的女友扮演提示词来看,效果相当好。

参考文献:
[1] 相关介绍地址:https://mp.weixin.qq.com/s/7vildpEbVKQ25wFAy0ch2g
[2] 代码:https://github.com/geekan/MetaGPT/tree/main/examples/spo
[3] 论文:Self-Supervised Prompt Optimization:https://arxiv.org/pdf/2502.06855



(文:NLP工程化)

欢迎分享

发表评论