works
Scott Alexander Обманчиво согласованные меса-оптимизаторы: Это не смешно, если приходится объяснять online Пост из рубрики «Machine Alignment Monday», 11.04.2022. Наша цель — популяризировать малоизвестные и сложные для понимания аспекты согласования ИИ, и этот мем (перепощенный Элиезером на прошлой неделе), безусловно, подходит для этого: Итак, давайте попробуем разобраться в этом непонятном меме! Нашим основным источником будет работа Хабингера и др. 2019 года «Риски, связанные с обученной оптимизацией в передовых системах машинного обучения». «Mesa-» — это греческий префикс, означающий противоположное «meta-». «Перейти на уровень meta» — значит подняться на один уровень выше; «перейти на уровень mesa» — значит опуститься на один уровень ниже (на самом деле никто никогда не использовал это выражение, извините). Таким образом, «меза-оптимизатор» — это оптимизатор, находящийся на один уровень ниже вас. Рассмотрим эволюцию, оптимизирующую приспособленность животных. Долгое время она делала это очень механически, встраивая такие поведения, как «используй эту клетку для обнаружения света, затем расти к свету» или «если у чего-то есть красная точка на спине, это может быть самка твоего вида, тебе следует спариться с ней». По мере того как животные становились все более сложными, они начали выполнять часть работы самостоятельно. Эволюция наделила их инстинктами, такими как голод и половое влечение, и животные придумали способы удовлетворить эти инстинкты в своей текущей ситуации. Эволюция не насаждала механически поведение, заключающееся в том, чтобы открыть мой холодильник и съесть кусок швейцарского сыра. Она насадила инстинкт голода, а я придумал, что лучший способ его удовлетворить — это открыть мой холодильник и съесть сыр.

Abstract

Пост из рубрики «Machine Alignment Monday», 11.04.2022. Наша цель — популяризировать малоизвестные и сложные для понимания аспекты согласования ИИ, и этот мем (перепощенный Элиезером на прошлой неделе), безусловно, подходит для этого: Итак, давайте попробуем разобраться в этом непонятном меме! Нашим основным источником будет работа Хабингера и др. 2019 года «Риски, связанные с обученной оптимизацией в передовых системах машинного обучения». «Mesa-» — это греческий префикс, означающий противоположное «meta-». «Перейти на уровень meta» — значит подняться на один уровень выше; «перейти на уровень mesa» — значит опуститься на один уровень ниже (на самом деле никто никогда не использовал это выражение, извините). Таким образом, «меза-оптимизатор» — это оптимизатор, находящийся на один уровень ниже вас. Рассмотрим эволюцию, оптимизирующую приспособленность животных. Долгое время она делала это очень механически, встраивая такие поведения, как «используй эту клетку для обнаружения света, затем расти к свету» или «если у чего-то есть красная точка на спине, это может быть самка твоего вида, тебе следует спариться с ней». По мере того как животные становились все более сложными, они начали выполнять часть работы самостоятельно. Эволюция наделила их инстинктами, такими как голод и половое влечение, и животные придумали способы удовлетворить эти инстинкты в своей текущей ситуации. Эволюция не насаждала механически поведение, заключающееся в том, чтобы открыть мой холодильник и съесть кусок швейцарского сыра. Она насадила инстинкт голода, а я придумал, что лучший способ его удовлетворить — это открыть мой холодильник и съесть сыр.