Pourquoi l'alignement de l'IA pourrait être difficile avec l'apprentissage profond moderne
Altruisme Efficace, September 24, 2025
Abstract
Le problème d’alignement de l’apprentissage profond consiste à s’assurer que les modèles avancés d’apprentissage profond ne poursuivent pas des objectifs dangereux. Cet article développe l’analogie avec le « recrutement » pour illustrer à quel point l’alignement peut s’avérer difficile si les modèles d’apprentissage profond sont plus performants que les humains. Il explique ensuite de manière plus technique en quoi consiste le problème d’alignement de l’apprentissage profond. Enfin, il examine la difficulté du problème d’alignement et les risques encourus si celui-ci n’est pas résolu.