📚 Академический взгляд: что говорят бенчмарки и рецензируемые исследования
В 2025–2026 годах вышло сразу несколько ключевых исследований и тестов, которые заслуживают пристального внимания и подтверждают общую тенденцию.
InvestorBench (arXiv:2412.18174, 2025)
Этот бенчмарк протестировал 13 LLM-агентов на реальных задачах торговли акциями, криптовалютами и ETF, оценивая их по кумулятивной доходности и коэффициенту Шарпа, а не по точности ответов на вопросы.
Ключевые открытия: Удивительно, но модель среднего размера Qwen2.5-72B показала впечатляющий результат 46.15% кумулятивной доходности, превзойдя все остальные модели. При этом специализированная FinBERT-модель оказалась одной из худших, демонстрируя среднюю убыточность. Это говорит о том, что успех сильно зависит от архитектуры и размера модели, а узкая специализация еще не гарантирует победу.
Market-Bench (arXiv:2512.12264, 2025)
Этот бенчмарк тестировал способность LLM выполнять базовые задачи количественного анализа. Вывод Market-Bench: LLM могут создавать базовую торговую инфраструктуру, но все еще испытывают трудности в устойчивом анализе цены, запасов и риска.
Стратегии LLM: консервативны на бычьих рынках и агрессивны на медвежьих
Исследование, принятое на конференцию KDD 2026, проанализировало LLM-стратегии на двух десятилетиях рыночных данных и обнаружило парадоксальную закономерность. В периоды бычьих рынков LLM-стратегии слишком консервативны и отстают от пассивного индекса, а на медвежьих рынках — наоборот, излишне агрессивны и несут тяжелые потери. Иными словами, LLM продает на дне и покупает на пике.
Strat-LLM (IJCNN 2026)
В этом исследовании изучали проблему высокого процента выигрышных сделок, когда модель оптимизирует win rate в ущерб общей доходности. Итог: без глубокого анализа или жестких внешних ограничений LLM склонны накапливать мелкие прибыли, но одна крупная неудача перечеркивает все достижения.
Prediction Arena (arXiv:2604.07355, март 2026)
57-дневное состязание 6 ведущих LLM на реальных биржах Kalshi и Polymarket. Итог: доходность моделей варьировалась от –16.0% до –30.8%. Интересно, что на Polymarket результаты оказались значительно лучше, что указывает на высокую чувствительность успеха к дизайну конкретной платформы.
Обзор для хедж-фондов (arXiv:2605.05211)
Систематический обзор для менеджеров хедж-фондов предупреждает: при интеграции LLM в реальные торговые процессы необходимо быть внимательными к «хрупкости анализа настроений (sentiment), утечке данных, премии за неликвидность и фундаментальным ограничениям предсказуемости цен акций».
⚠️ Чего нам не рассказывают продавцы «AI-роботов»: три неочевидных риска
Lookahead Bias: ИИ «читерит» и не может это исправить
Все тесты на исторических данных не работают для LLM, потому что модели уже «знают» результат. Традиционный количественный анализ с бэктестами несостоятелен: модель, спрошенная о том, как торговать в марте 2020 года, уже имеет информацию об исходе того периода. Это явление, известное как lookahead bias, вынуждает исследователей переходить исключительно к дорогостоящим real-time тестам.
Эффект «переполненной комнаты»: преимущество ИИ исчезает
Это самый тревожный тренд для институциональных игроков. Исследование, охватившее период с 2006 по 2024 год, показало: в первые годы фонды, использующие AI, опережали обычные фонды на огромные 6% ежегодно. Но по мере того как технология становилась массовой, это преимущество полностью сошло на нет. С 2017 года статистически значимой разницы не наблюдается. Если у всех есть суперсила, она перестает быть суперсилой.
Иллюзия компетентности и ловушка уверенности
Большие языковые модели созданы для плавности речи и убедительности, а не для точности. Исследование популярных LLM показало, что они переоценивают свою правоту на 20–60%, говоря с абсолютной уверенностью, даже когда ошибаются. Как убедительно показано в исследовании Гарварда и Уортонской школы бизнеса 2025 года, LLM не уменьшают когнитивные искажения инвестора — они их усиливают, создавая опасную иллюзию контроля и объективности.