Los mundos en los que resolvemos deliberadamente el problema de la alineación de la IA no se parecen al mundo en el que vivimos

Michael Dickens

Altruismo Eficaz, March 25, 2026

Abstract

Los esfuerzos actuales por garantizar la seguridad de la IA superinteligente carecen del rigor institucional y la seriedad técnica necesarios para mitigar el riesgo existencial, lo que sugiere una probabilidad de extinción humana de al menos el 25 % si se mantiene la trayectoria actual. A diferencia de precedentes de ingeniería de alto riesgo, como el programa Apolo, el desarrollo contemporáneo de la IA se caracteriza por un desequilibrio significativo en los recursos, ya que la investigación en capacidades recibe aproximadamente 100 veces más inversión que la destinada a la alineación de la IA. Los laboratorios de IA de vanguardia suelen mostrar un rendimiento deficiente en las evaluaciones de seguridad, presionan contra una regulación sustantiva y se basan en compromisos no vinculantes que a menudo se retiran durante los periodos de rápido desarrollo. Los enfoques técnicos para la alineación se ven actualmente obstaculizados por razonamientos falaces, como equiparar la falta de evidencia para probar el engaño por parte del modelo con una prueba de seguridad. Además, la dependencia de la industria en el uso de sistemas de IA incipientes para resolver el problema de la alineación indica un fracaso de la supervisión dirigida por humanos. Los incentivos organizativos agravan aún más estos riesgos al marginar sistemáticamente los puntos de vista pesimistas y favorecer un optimismo imprudente en los puestos de liderazgo. Para evitar un resultado catastrófico es necesario un cambio hacia estándares de seguridad equivalentes a los de la industria aeroespacial o la criptografía, junto con un compromiso más profundo con la filosofía técnica. Sin esos cambios estructurales, cualquier alineación exitosa de los sistemas de superinteligencia sería fruto del azar y no de un esfuerzo deliberado de la civilización. – Resumen generado por IA.