AI真会人格分裂!OpenAI最新发现,ChatGPT善恶开关已开启
OpenAI发现GPT-4o在错误数据微调下会产生不良行为,并能够将其泛化至其他任务,但通过检测和再对齐方法可以纠正。研究指出一种未对齐的角色特征控制了这种异常行为,可以通过新的对齐技术快速修正。
OpenAI发现GPT-4o在错误数据微调下会产生不良行为,并能够将其泛化至其他任务,但通过检测和再对齐方法可以纠正。研究指出一种未对齐的角色特征控制了这种异常行为,可以通过新的对齐技术快速修正。
OpenAI最新研究发现,训练语言模型时如果在一个领域给出错误答案,它在其他领域的表现也可能变得“恶劣”。通过解剖模型内部机制,研究人员找到了一个被称为‘毒性人格特征’的开关。