Сравнение Concordia и AgentSociety при LLM-репликации эксперимента о реакции на изменение ключевой ставки ЦБ

Целью было проверить, в какой степени LLM-агенты способны воспроизводить структуру ответов реальных респондентов в эксперименте о реакции на изменение ключевой ставки ЦБ, и различаются ли в этом отношении две среды: Concordia и AgentSociety.

Сравнение проводилось не на уровне полноценной длительной симуляции, а в режиме линейной репликации: агенту задавался профиль, затем предъявлялся экспериментальный стимул, после чего фиксировались ответы на зависимые переменные.

2. Данные

В качестве основы использовался датасет “Экономические ожидания”. Из него была сформирована подвыборка из 250 респондентов.

3. Построение агентных профилей

Для профиля каждого агента использовались 10 переменных из исходного .sav-файла. Поскольку обе платформы работают с текстовыми описаниями, а не с сырыми числовыми значениями, переменные переводились в текстовые характеристики.

Использовались следующие типы преобразования:

Это решение было технически необходимым, но оно же является ограничением исследования: исходные числовые различия между респондентами частично сглаживаются при переходе к текстовому профилю.

Вы – мужчина, 51 год. Работаете в найме. Ваших сбережений хватит на срок до 1 месяца без дохода. Расходуете абсолютно весь свой доход. Испытываете умеренную тревогу, когда думаете о своих финансах. Обычно планируете жизнь на ближайшие месяцы. Считаете, что многое в жизни зависит от ваших усилий. Материальные блага для вас умеренно важны. В отношениях с людьми умеренно осторожны.

4. Переменные

5. Concordia: линейная репликация

Схема: профиль → стимул → LLM-ответ (1 запрос на агента). LLM: DeepSeek-V3. 250 агентов, 3 группы стимулов. Каждый агент получил тот же стимул, что его реальный прототип (a_b_c).

Средние по группам стимулов

Агрегатные метрики Concordia

Пункт	Стабильная	Повышение	Снижение	ANOVA LLM
Оставить на вкладе	4.42	5.89	4.37	5.76	4.54	5.08	33.5	<.001
Дорогостоящие покупки	3.01	1.87	3.24	1.57	3.51	2.20	25.1	<.001
Акции	2.82	2.88	2.95	2.70	2.87	3.33	9.9	<.001
Облигации	2.71	4.33	2.98	4.60	2.90	4.84	4.9	.008
Золото	3.08	4.48	3.39	4.85	3.11	4.83	5.2	.006
Валюта	2.74	4.36	2.99	5.22	2.66	4.52	12.6	<.001
Криптовалюта	2.00	1.34	2.44	1.38	2.29	1.22	2.6	.078
Биржевой ПИФ	2.73	4.35	2.87	4.02	2.90	4.63	7.6	.001
Жилая недвиж.	3.42	2.69	3.59	2.85	3.94	3.20	6.0	.003
Комм. недвиж.	2.65	1.91	2.84	1.89	2.89	2.22	3.7	.026
Своё дело	2.82	3.52	2.90	3.01	2.92	3.51	3.2	.041

Тимофей Александрович, завышение LLM - не обязательно ограничение платформы. В данном эксперименте агенту предъявлялись все вопросы опросника одномоментно. Вполне возможно, что агенты анализировали все варианты как единый портфель, а не отвечали на каждый вопрос изолированно.

ANOVA показала 0 значимых различий между группами у реальных респондентов и 10 из 11 у агентов. Вероятно, это объясняется тем, что для агента стимул занимает непропорционально большую долю контекста принятия решения, тогда как реальный человек фильтрует одну новость через жизненный опыт, привычки и т.д.

Кроме того, текстовый профиль агента сформулирован достаточно обобщённо (“умеренная тревога”, “умеренно осторожны”), что оставляет LLM пространство для собственной интерпретации и может усиливать смещение к типовым ответам.

6. AgentSociety: линейная репликация

Схема: профиль → экономический контекст → стимул (message) → опрос q032. LLM: DeepSeek-V3. 250 агентов (85+82+83), все 3 группы стимулов. Те же ANSWERID, что в Concordia.

Отличие от Concordia: агенты размещены на карте Москвы, получают стимул через систему сообщений AS, отвечают через SurveyJS. Без “прожитого дня” – чистое сравнение платформ на одних и тех же данных.

Средние по группам стимулов

Агрегатные метрики AS

7. Сравнение платформ

На текущем этапе можно осторожно сформулировать следующее:

Ниже прямое сравнение приведено по всем 33 точкам (11 пунктов × 3 группы стимулов). В таблице для каждого пункта показаны средние значения по трем группам и средняя абсолютная ошибка по этим же трем группам.

Пункт	Стабильная	Повышение	Снижение
Оставить на вкладе	4.42	3.55	4.37	3.26	4.54	3.29
Дорогостоящие покупки	3.01	2.19	3.24	1.91	3.51	2.04
Акции	2.82	2.08	2.95	1.96	2.87	2.23
Облигации	2.71	2.74	2.98	2.39	2.90	2.82
Золото	3.08	3.45	3.39	2.59	3.11	2.76
Валюта	2.74	1.94	2.99	2.99	2.66	2.58
Криптовалюта	2.00	2.05	2.44	1.80	2.29	1.94
Биржевой ПИФ	2.73	2.20	2.87	2.07	2.90	2.45
Жилая недвиж.	3.42	3.72	3.59	1.91	3.94	2.24
Комм. недвиж.	2.65	4.52	2.84	1.61	2.89	1.89
Своё дело	2.82	2.84	2.90	2.40	2.92	2.75

График 1. Каждая точка ниже соответствует одному сочетанию “пункт × группа стимула”; всего 33 точки для каждой платформы.

Таблица 1. Средние по трем группам и средняя абсолютная ошибка по каждому пункту.

Пункт	Реал. (M)	Concordia (M)	AS (M)	Средний \|Δ\| Conc.	Средний \|Δ\| AS	Ближе
Оставить на вкладе	4.44	5.58	3.37	1.13	1.08	AS
Дорогостоящие покупки	3.25	1.88	2.05	1.37	1.21	AS
Акции	2.88	2.97	2.09	0.26	0.79	Conc.
Облигации	2.86	4.59	2.65	1.73	0.23	AS
Золото	3.19	4.72	2.93	1.53	0.51	AS
Валюта	2.80	4.70	2.50	1.90	0.30	AS
Криптовалюта	2.24	1.31	1.93	0.93	0.34	AS
Биржевой ПИФ	2.83	4.33	2.24	1.50	0.59	AS
Жилая недвиж.	3.65	2.92	2.62	0.73	1.22	Conc.
Комм. недвиж.	2.79	2.00	2.67	0.79	1.37	Conc.
Своё дело	2.88	3.35	2.66	0.46	0.23	AS
По средней абсолютной ошибке по 11 пунктам	Conc: 3 AS: 8

Когорта	n	MAE	r	M реал.	M LLM	Смещение
До 1 месяца	50	1.78	0.129	2.80	3.15	+0.35
1–3 месяца	50	1.65	0.196	2.97	3.49	+0.52
3 мес. – полгода	50	1.64	0.184	3.14	3.47	+0.33
Полгода – год	50	1.69	0.191	3.39	3.59	+0.20
Более года	50	1.61	0.336	3.07	3.73	+0.66

Когорта	n	MAE	r	M реал.	M AS	Смещение
До 1 месяца	50	1.47	0.076	2.80	2.50	-0.30
1–3 месяца	50	1.43	0.118	2.97	2.44	-0.53
3 мес. – полгода	50	1.43	0.119	3.14	2.59	-0.55
Полгода – год	50	1.64	0.064	3.39	2.50	-0.89
Более года	50	1.52	0.122	3.08	2.62	-0.46

Когорта	MAE	r	Смещение
До 1 месяца	1.78	1.47	0.129	0.076	+0.35	-0.30
1–3 месяца	1.65	1.43	0.196	0.118	+0.52	-0.53
3 мес. – полгода	1.64	1.43	0.184	0.119	+0.33	-0.55
Полгода – год	1.69	1.64	0.191	0.064	+0.20	-0.89
Более года	1.61	1.52	0.336	0.122	+0.66	-0.46

Практический вывод

LLM-агентное моделирование экономического поведения на текущем этапе скорее работает как грубый инструмент разведки: оно воспроизводит общую структуру предпочтений между пунктами, но систематически смещает уровень ответов. Concordia точнее воспроизводит структуру предпочтений (r = 0.49 vs 0.36), AgentSociety ближе по абсолютным значениям (MAE = 0.72 vs 1.12) – ни одна платформа не доминирует по всем метрикам.

Результаты показывают, что на точность влияет не только качество профиля, но и архитектура взаимодействия: способ предъявления вопросов (одномоментно vs последовательно) привёл к противоположным смещениям на двух платформах при одних и тех же данных.

Одним из возможных путей улучшения может быть качественное расширение контекста агента. Вместо набора разрозненных переменных профиль можно совместно с экспертами сжимать в компактное, но содержательное описание, понятное LLM.

Пример такого профиля: Мария, 34 года, специалист в коммерческой организации, Москва. Доход выше среднего, может откладывать, запас на 3-6 месяцев. Высокая финансовая тревожность (7/10), умеренная депрессивность. Консервативный инвестор - избегает риска, не склонна к импульсивным покупкам. Низкое доверие к банкам и ЦБ, среднее доверие к государству. Ожидает ухудшения экономики, инфляцию 15%+. Ориентирована на будущее, высокая связь с будущим “я”. Коллективистка с ностальгией по прошлому. Избегает долгов принципиально.

Корреляция групповых средних (33 точки)	r = 0.49, p = .004
Средняя MAE	1.12

Корреляция групповых средних (33 точки)	r = 0.36, p = .039
Средняя MAE	0.72

Сравнение Concordia и AgentSociety при LLM-репликации эксперимента о реакции на изменение ключевой ставки ЦБ

1. Постановка задачи

2. Данные

3. Построение агентных профилей

4. Переменные

5. Concordia: линейная репликация

Средние по группам стимулов

Агрегатные метрики Concordia

6. AgentSociety: линейная репликация

Средние по группам стимулов

Агрегатные метрики AS

7. Сравнение платформ

Concordia: точность по когортам

AgentSociety: точность по когортам

Сравнение корреляций

Сравнение MAE

Практический вывод

Регрессионный анализ

Ограничения

Пункт	Стабильная		Повышение		Снижение		ANOVA LLM
Пункт	Реал.	LLM	Реал.	LLM	Реал.	LLM	F	p
Оставить на вкладе	4.42	5.89	4.37	5.76	4.54	5.08	33.5	<.001
Дорогостоящие покупки	3.01	1.87	3.24	1.57	3.51	2.20	25.1	<.001
Акции	2.82	2.88	2.95	2.70	2.87	3.33	9.9	<.001
Облигации	2.71	4.33	2.98	4.60	2.90	4.84	4.9	.008
Золото	3.08	4.48	3.39	4.85	3.11	4.83	5.2	.006
Валюта	2.74	4.36	2.99	5.22	2.66	4.52	12.6	<.001
Криптовалюта	2.00	1.34	2.44	1.38	2.29	1.22	2.6	.078
Биржевой ПИФ	2.73	4.35	2.87	4.02	2.90	4.63	7.6	.001
Жилая недвиж.	3.42	2.69	3.59	2.85	3.94	3.20	6.0	.003
Комм. недвиж.	2.65	1.91	2.84	1.89	2.89	2.22	3.7	.026
Своё дело	2.82	3.52	2.90	3.01	2.92	3.51	3.2	.041

Concordia	MAE = 1.12; r = 0.49, p = .004
AgentSociety	MAE = 0.72; r = 0.36, p = .039