works
Neel Nanda 可解释性无法可靠地识别欺骗性人工智能 online 当前可解释性研究范式难以产生高度可靠的、用于评估或监控超级智能系统安全性的方法。可解释性仍是宝贵工具,应纳入更广泛的深度防御策略,但并非万能解药。无论是可解释性方法还是黑盒方法都面临根本性局限。 可解释性方法易出错,缺乏可供比对的基准数据,且难以证明其无欺骗性。黑箱方法则可能被足够智能的系统规避。尽管存在这些局限,务实的做法是构建最佳的监测评估工具组合。可解释性虽不完美,仍能提供宝贵信号,并与黑箱方法协同使用以构建更鲁棒的系统。 例如:可解释性可用于增强黑盒评估——通过操控模型是否感知自身正接受评估;亦可用于调试异常行为并生成可通过其他途径验证的假设。尽管高度可靠性难以企及,但最大化发现未对齐的可能性仍是值得追求的目标。——AI生成摘要

Abstract

当前可解释性研究范式难以产生高度可靠的、用于评估或监控超级智能系统安全性的方法。可解释性仍是宝贵工具,应纳入更广泛的深度防御策略,但并非万能解药。无论是可解释性方法还是黑盒方法都面临根本性局限。 可解释性方法易出错,缺乏可供比对的基准数据,且难以证明其无欺骗性。黑箱方法则可能被足够智能的系统规避。尽管存在这些局限,务实的做法是构建最佳的监测评估工具组合。可解释性虽不完美,仍能提供宝贵信号,并与黑箱方法协同使用以构建更鲁棒的系统。 例如:可解释性可用于增强黑盒评估——通过操控模型是否感知自身正接受评估;亦可用于调试异常行为并生成可通过其他途径验证的假设。尽管高度可靠性难以企及,但最大化发现未对齐的可能性仍是值得追求的目标。——AI生成摘要