モダンな深層学習でAIアライメントが困難になるかもしれないわけ

Ajeya Cotra

効果的利他主義, February 16, 2026

Abstract

深層学習のアライメント問題は、高度な深層学習モデルが危険な目標を追求しないように保証する課題である。本稿では「採用」の比喩を用いて、深層学習モデルが人間よりも能力が高い場合にアライメントが困難になり得ることを説明する。続いて、深層学習のアライメント問題が何を指すのかを技術的に詳細に解説する。最後に、アライメント問題の困難さと、解決に失敗した場合のリスクの大きさを考察する。