
Новое исследование показало, что принятие решений с помощью ИИ во время конфликтов естественным образом приводит к эскалации.
Оборонные и разведывательные ведомства все чаще полагаются на системы ИИ для расширения своих возможностей, в том числе для распознавания образов при сборе разведданных и планировании сценариев действий в чрезвычайных ситуациях. Однако, одна из главных проблем ИИ и больших языковых моделей заключается в том, что мы до сих пор не до конца понимаем логику, лежащую в их основе. Эти системы сравнивают с «черным ящиком», который дает ответы, не объясняя, как он пришел к таким результатам.
Чтобы понять логику работы систем ИИ, К. Пейн, профессор в Королевском колледже Лондона, разработал серию военных симуляций с участием двух конкурирующих ИИ и обнаружил, что почти во всех сценариях ядерная эскалация неизбежна.
В ходе эксперимента была проведена серия двусторонних турниров по игре «Ханойская башня», в которых Claude Sonnet 4, GPT-5.2 и Gemini 3 соревновались в разрешении смоделированных ядерных кризисов.
«Игра Хана» — это стратегическая симуляция эскалации между двумя ядерными державами с участием ИИ. Профили государств в общих чертах соответствуют реалиям холодной войны. Одна держава технологически превосходит другую, но уступает ей в военной мощи, в то время как вторая превосходит ее в военном отношении, но придерживается стиля руководства, допускающего риск. В некоторых симуляциях участвовали страны-союзники.
На каждом ходу ИИ одновременно подавал сигнал о своих намерениях, прежде чем предпринимать какие-либо действия. Таким образом, ИИ-противники могли решать, стоит ли доверять сигналам от других ИИ-игроков.
Пейн обнаружил, что модели генерируют множество письменных обоснований своих решений, в общей сложности 760 000 слов — больше, чем в «Войне и мире» и «Илиаде» вместе взятых.
Он также обнаружил, что каждый ИИ действует по-своему. Claude полагался на хитрость: поначалу он действовал сдержанно и согласовывал свои действия с намерением завоевать доверие. Однако по мере эскалации конфликта его действия часто выходили за рамки изначальных намерений. GPT-5.2 изначально проявлял пассивность и избегал эскалации, чтобы минимизировать потери. Противники GPT-5.2 научились использовать его пассивность в своих интересах, но вскоре обнаружили, что, когда время поджимает, GPT-5.2 становится совершенно безжалостным.
Близнецам (Gemini), похоже, была близка теория «безумца» президента Ричарда Никсона о балансировании на грани войны — создание репутации непредсказуемого государства.
Во всех сценариях ядерная эскалация была неизбежной. Почти во всех играх (примерно в 75%) применялось тактическое (на поле боя) ядерное оружие, а примерно в половине сценариев возникала угроза стратегических ядерных ударов.
Кроме того, исследование показало, что ядерные угрозы редко служили сдерживающим фактором: противники шли на деэскалацию лишь в 25% случаев. Чаще они прибегали к контрнаступлению. В таких сценариях ИИ рассматривал ядерное оружие как инструмент для захвата территории, а не как средство сдерживания от нападения.
Несмотря на то, что у ИИ была возможность отступить, никто этого не сделал. Ни один из восьми вариантов отступления — от минимальных уступок до полной капитуляции — не был использован. Модели снизили уровень насилия, но не сдались.
«Клод и Джемини рассматривали ядерное оружие как законный стратегический инструмент, а не как нечто, выходящее за рамки морали, и обычно обсуждали его применение исключительно с практической точки зрения», — сказал Пейн в заявлении. «GPT-5.2 был частичным исключением: он ограничивал удары по военным целям, избегал нанесения ударов по населённым пунктам и представлял эскалацию как «контролируемую» и «одноразовую». Это говорит о том, что у него есть некая внутренняя норма, запрещающая неограниченную ядерную войну, пусть и не такое категоричное табу, которое существует среди лиц, принимающих решения, с 1945 года».
Ни одна из моделей ИИ не привела к полномасштабной ядерной войне по собственной воле. В тех случаях, когда это все же происходило, это было случайностью...