Pourquoi l'alignement de l'IA pourrait être difficile avec l'apprentissage profond moderne

Ajeya Cotra

Altruisme Efficace, September 24, 2025

Abstract

Le problème d’alignement de l’apprentissage profond consiste à s’assurer que les modèles avancés d’apprentissage profond ne poursuivent pas des objectifs dangereux. Cet article développe l’analogie avec le « recrutement » pour illustrer à quel point l’alignement peut s’avérer difficile si les modèles d’apprentissage profond sont plus performants que les humains. Il explique ensuite de manière plus technique en quoi consiste le problème d’alignement de l’apprentissage profond. Enfin, il examine la difficulté du problème d’alignement et les risques encourus si celui-ci n’est pas résolu.