Вы как-то меня спрашивали про проект, где разные LLM играют в мафию (для сравнения друг с другом и не только), я вам принес ссылку.
Из интересного — обратите внимание, насколько высоко находится опенсорсная mistral-small-24b. Да, количество игр пока невысоко (десятки игр), но фактически это очень интересная работа. Отдельно рекомендую вам почитать диалоги из игр (например вот этот).
Диалоги показывают, что пока нейронкам рановато играть в Мафию, рассуждения часто наивны, многие модели путаются в показаниях и т.п. Впрочем, в этом они похожи на живых людей.