Я не трейдер, но меня всегда привлекал трейдинг как испытательный полигон для современных технологий. Недавно я решил провести собственное исследование: изучить последние открытые бенчмарки и реальные тесты ИИ-моделей, чтобы понять, насколько они на самом деле способны управлять капиталом, и ответить на вопрос — можно ли доверять ИИ свои деньги. Я перелопатил десятки отчетов, свежих статей и исследовательских работ 2025–2026 годов. Вот что выяснилось. Обработку данных делал ИИ
Данные неутешительны и даже немного пугают. Текущий консенсус большинства серьезных тестов сводится к одному: современные LLM-агенты не просто не готовы к самостоятельной торговле, но и могут быть опасны для вашего капитала. Однако у них есть и определенные сильные стороны — если использовать их не как «черный ящик», а как помощника для research.
🤖 Эксперимент Alpha Arena: публичный провал флагманов индустрии
Самый показательный на сегодняшний день эксперимент провела технологическая компания Nof1 в проекте Alpha Arena в апреле-мае 2026 года.
Условия эксперимента были максимально приближены к реальным. Восемь ведущих AI-систем — Claude от Anthropic, Gemini от Google, ChatGPT от OpenAI и Grok от xAI — участвовали в четырех независимых раундах, в каждом получая по $10 000 реальных денег, которыми они должны были управлять в течение двух недель на фондовом рынке. Всего было проанализировано 32 результата, и итог оказался сокрушительным: общий портфель потерял около одной трети своего капитала, а только 6 из 32 попыток завершились прибылью (это всего 18,75% успеха).
Главные проблемы LLM, выявленные в эксперименте:
Переторговка (overtrading) и непонимание издержек.
В попытке заработать модели совершали огромное количество сделок. Например, при одном и том же запросе модель Qwen от Alibaba открыла 1 418 позиций за раунд, в то время как самый «спокойный» Grok 4.20 — всего 158. Высокая торговая активность напрямую не привела к прибыли, лишь увеличила комиссионные издержки.
Абсолютное расхождение в стратегиях, напоминающее человеческие «личности».
Модели действовали абсолютно по-разному: Claude в основном открывал длинные позиции, Gemini легко шел в шорт, а Qwen смело использовал высокое кредитное плечо. Основатель Nof1 Джей Ажан отмечает, что управлять ими почти как управлять командой аналитиков.
Системные проблемы с риск-менеджментом и выбором времени.
LLM показали, что не понимают, какой вес имеют те или иные факторы — рейтинги аналитиков, инсайдерские сделки, новостной фон. Они демонстрируют хорошие способности в фундаментальном исследовании компаний, но полностью проваливаются в выборе времени для входа и выхода (market timing) и управлении размером позиции.
Вывод: как метко подметил один из аналитиков, текущие большие языковые модели обучались предсказывать следующее слово в тексте на триллионах токенов, а не оценивать риски и распределять капитал. Просить их торговать — это примерно как заставлять лингвиста играть в NBA. Сейчас напрямую передать деньги LLM и позволить ей торговать самостоятельно — путь, который еще не работает.