Сравнение Concordia и AgentSociety при LLM-репликации эксперимента о реакции на изменение ключевой ставки ЦБ

Подготовил: С.С. Собецкий

1. Постановка задачи

Целью было проверить, в какой степени LLM-агенты способны воспроизводить структуру ответов реальных респондентов в эксперименте о реакции на изменение ключевой ставки ЦБ, и различаются ли в этом отношении две среды: Concordia и AgentSociety.

Сравнение проводилось не на уровне полноценной длительной симуляции, а в режиме линейной репликации: агенту задавался профиль, затем предъявлялся экспериментальный стимул, после чего фиксировались ответы на зависимые переменные.

2. Данные

В качестве основы использовался датасет “Экономические ожидания”. Из него была сформирована подвыборка из 250 респондентов.

Принципы отбора:

Характеристики подвыборки:

3. Построение агентных профилей

Для профиля каждого агента использовались 10 переменных из исходного .sav-файла. Поскольку обе платформы работают с текстовыми описаниями, а не с сырыми числовыми значениями, переменные переводились в текстовые характеристики.

Использовались следующие типы преобразования:

Это решение было технически необходимым, но оно же является ограничением исследования: исходные числовые различия между респондентами частично сглаживаются при переходе к текстовому профилю.

Пример реального профиля агента (Concordia):

Вы – мужчина, 51 год. Работаете в найме. Ваших сбережений хватит на срок до 1 месяца без дохода. Расходуете абсолютно весь свой доход. Испытываете умеренную тревогу, когда думаете о своих финансах. Обычно планируете жизнь на ближайшие месяцы. Считаете, что многое в жизни зависит от ваших усилий. Материальные блага для вас умеренно важны. В отношениях с людьми умеренно осторожны.

4. Переменные

В профиль входили:

Зависимая переменная:


5. Concordia: линейная репликация

Схема: профиль → стимул → LLM-ответ (1 запрос на агента). LLM: DeepSeek-V3. 250 агентов, 3 группы стимулов. Каждый агент получил тот же стимул, что его реальный прототип (a_b_c).

Средние по группам стимулов

1
7 – шкала вероятности действия
ПунктСтабильнаяПовышениеСнижениеANOVA LLM
Реал.LLMРеал.LLMРеал.LLMFp
Оставить на вкладе4.425.894.375.764.545.0833.5<.001
Дорогостоящие покупки3.011.873.241.573.512.2025.1<.001
Акции2.822.882.952.702.873.339.9<.001
Облигации2.714.332.984.602.904.844.9.008
Золото3.084.483.394.853.114.835.2.006
Валюта2.744.362.995.222.664.5212.6<.001
Криптовалюта2.001.342.441.382.291.222.6.078
Биржевой ПИФ2.734.352.874.022.904.637.6.001
Жилая недвиж.3.422.693.592.853.943.206.0.003
Комм. недвиж.2.651.912.841.892.892.223.7.026
Своё дело2.823.522.903.012.923.513.2.041

Агрегатные метрики Concordia

Корреляция групповых средних (33 точки)r = 0.49, p = .004
Средняя MAE1.12
Тимофей Александрович, завышение LLM - не обязательно ограничение платформы. В данном эксперименте агенту предъявлялись все вопросы опросника одномоментно. Вполне возможно, что агенты анализировали все варианты как единый портфель, а не отвечали на каждый вопрос изолированно.

ANOVA показала 0 значимых различий между группами у реальных респондентов и 10 из 11 у агентов. Вероятно, это объясняется тем, что для агента стимул занимает непропорционально большую долю контекста принятия решения, тогда как реальный человек фильтрует одну новость через жизненный опыт, привычки и т.д.

Кроме того, текстовый профиль агента сформулирован достаточно обобщённо (“умеренная тревога”, “умеренно осторожны”), что оставляет LLM пространство для собственной интерпретации и может усиливать смещение к типовым ответам.

6. AgentSociety: линейная репликация

Схема: профиль → экономический контекст → стимул (message) → опрос q032. LLM: DeepSeek-V3. 250 агентов (85+82+83), все 3 группы стимулов. Те же ANSWERID, что в Concordia.

Отличие от Concordia: агенты размещены на карте Москвы, получают стимул через систему сообщений AS, отвечают через SurveyJS. Без “прожитого дня” – чистое сравнение платформ на одних и тех же данных.

Средние по группам стимулов

ПунктСтабильнаяПовышениеСнижение
Реал.ASРеал.ASРеал.AS
Оставить на вкладе4.423.554.373.264.543.29
Дорогостоящие покупки3.012.193.241.913.512.04
Акции2.822.082.951.962.872.23
Облигации2.712.742.982.392.902.82
Золото3.083.453.392.593.112.76
Валюта2.741.942.992.992.662.58
Криптовалюта2.002.052.441.802.291.94
Биржевой ПИФ2.732.202.872.072.902.45
Жилая недвиж.3.423.723.591.913.942.24
Комм. недвиж.2.654.522.841.612.891.89
Своё дело2.822.842.902.402.922.75

Агрегатные метрики AS

Корреляция групповых средних (33 точки)r = 0.36, p = .039
Средняя MAE0.72
Обе платформы воспроизводят различия между пунктами, но систематически смещают уровень ответов. Concordia стабильно завышает (в среднем +0.6), AgentSociety в основном занижает (в среднем -0.5), но по отдельным пунктам (недвижимость при стабильной ставке) демонстрирует резкое завышение.

7. Сравнение платформ

На текущем этапе можно осторожно сформулировать следующее:

Ниже прямое сравнение приведено по всем 33 точкам (11 пунктов × 3 группы стимулов). В таблице для каждого пункта показаны средние значения по трем группам и средняя абсолютная ошибка по этим же трем группам.

ConcordiaMAE = 1.12; r = 0.49, p = .004
AgentSocietyMAE = 0.72; r = 0.36, p = .039

График 1. Каждая точка ниже соответствует одному сочетанию “пункт × группа стимула”; всего 33 точки для каждой платформы.

Таблица 1. Средние по трем группам и средняя абсолютная ошибка по каждому пункту.

ПунктРеал. (M)Concordia (M)AS (M)Средний |Δ| Conc.Средний |Δ| ASБлиже
Оставить на вкладе4.445.583.371.131.08AS
Дорогостоящие покупки3.251.882.051.371.21AS
Акции2.882.972.090.260.79Conc.
Облигации2.864.592.651.730.23AS
Золото3.194.722.931.530.51AS
Валюта2.804.702.501.900.30AS
Криптовалюта2.241.311.930.930.34AS
Биржевой ПИФ2.834.332.241.500.59AS
Жилая недвиж.3.652.922.620.731.22Conc.
Комм. недвиж.2.792.002.670.791.37Conc.
Своё дело2.883.352.660.460.23AS
По средней абсолютной ошибке по 11 пунктамConc: 3 AS: 8

Точность по когортам финансовой подушки (q030)
В основном отчёте корреляция рассчитана по 33 групповым средним (11 пунктов x 3 группы), где каждая точка – среднее по 50-85 респондентам. Ниже – анализ на уровне индивидуальных ответов: каждый LLM-агент сопоставлен со своим реальным прототипом.

Concordia: точность по когортам

КогортаnMAErM реал.M LLMСмещение
До 1 месяца501.780.1292.803.15+0.35
1–3 месяца501.650.1962.973.49+0.52
3 мес. – полгода501.640.1843.143.47+0.33
Полгода – год501.690.1913.393.59+0.20
Более года501.610.3363.073.73+0.66

AgentSociety: точность по когортам

КогортаnMAErM реал.M ASСмещение
До 1 месяца501.470.0762.802.50-0.30
1–3 месяца501.430.1182.972.44-0.53
3 мес. – полгода501.430.1193.142.59-0.55
Полгода – год501.640.0643.392.50-0.89
Более года501.520.1223.082.62-0.46

Сравнение корреляций

Сравнение MAE

КогортаMAErСмещение
Conc.ASConc.ASConc.AS
До 1 месяца1.781.470.1290.076+0.35-0.30
1–3 месяца1.651.430.1960.118+0.52-0.53
3 мес. – полгода1.641.430.1840.119+0.33-0.55
Полгода – год1.691.640.1910.064+0.20-0.89
Более года1.611.520.3360.122+0.66-0.46
Обе платформы лучше работают с финансово устойчивыми респондентами. Когорта "более года" даёт наивысшую корреляцию (Concordia: r=0.336, AS: r=0.122). Concordia лучше воспроизводит структуру ответов, AS ближе по абсолютным значениям. Люди без финансовой подушки наименее предсказуемы для LLM – их решения могут в большей степени определяться ситуативными и эмоциональными факторами, для которых необходим уточнённый текстовый профиль.

Практический вывод

LLM-агентное моделирование экономического поведения на текущем этапе скорее работает как грубый инструмент разведки: оно воспроизводит общую структуру предпочтений между пунктами, но систематически смещает уровень ответов. Concordia точнее воспроизводит структуру предпочтений (r = 0.49 vs 0.36), AgentSociety ближе по абсолютным значениям (MAE = 0.72 vs 1.12) – ни одна платформа не доминирует по всем метрикам.

Результаты показывают, что на точность влияет не только качество профиля, но и архитектура взаимодействия: способ предъявления вопросов (одномоментно vs последовательно) привёл к противоположным смещениям на двух платформах при одних и тех же данных.

Одним из возможных путей улучшения может быть качественное расширение контекста агента. Вместо набора разрозненных переменных профиль можно совместно с экспертами сжимать в компактное, но содержательное описание, понятное LLM.

Пример такого профиля: Мария, 34 года, специалист в коммерческой организации, Москва. Доход выше среднего, может откладывать, запас на 3-6 месяцев. Высокая финансовая тревожность (7/10), умеренная депрессивность. Консервативный инвестор - избегает риска, не склонна к импульсивным покупкам. Низкое доверие к банкам и ЦБ, среднее доверие к государству. Ожидает ухудшения экономики, инфляцию 15%+. Ориентирована на будущее, высокая связь с будущим “я”. Коллективистка с ностальгией по прошлому. Избегает долгов принципиально.

Регрессионный анализ

Ограничения