可解释性无法可靠地识别欺骗性人工智能

Neel Nanda

December 16, 2025

Abstract

当前可解释性研究范式难以产生高度可靠的、用于评估或监控超级智能系统安全性的方法。可解释性仍是宝贵工具，应纳入更广泛的深度防御策略，但并非万能解药。无论是可解释性方法还是黑盒方法都面临根本性局限。可解释性方法易出错，缺乏可供比对的基准数据，且难以证明其无欺骗性。黑箱方法则可能被足够智能的系统规避。尽管存在这些局限，务实的做法是构建最佳的监测评估工具组合。可解释性虽不完美，仍能提供宝贵信号，并与黑箱方法协同使用以构建更鲁棒的系统。例如：可解释性可用于增强黑盒评估——通过操控模型是否感知自身正接受评估；亦可用于调试异常行为并生成可通过其他途径验证的假设。尽管高度可靠性难以企及，但最大化发现未对齐的可能性仍是值得追求的目标。——AI生成摘要