提升大模型内在透明度:无需外部模块实现高效监控与自发安全增强|上海AI Lab & 上交

上海人工智能实验室和上海交通大学的研究团队提出TELLME方法,通过表征解耦技术提升大模型内部透明度,实现可靠且简单的监控。该方法显著提升了模型的安全性和通用能力,并具有良好的扩展性。