Бенчмарк для LLM: работа в роли бухгалтера с данными реальной компании.
Пока что ни одна из нейронок не справляется. Множественные ошибки, расхождения, подгон данных под свои косяки. Первые пару месяцев они закрывают месяц, а дальше начинается ад.
Полное описание бенчмарка, системный промпт, тестовые данные:
https://accounting.penrose.com/