Методология построения эталонного теста для оценки работы LLM с числительными
Ключевые слова:
методология, большие языковые модели (LLM), эталонный тест LLM, обработка естественного языка (NLP), числительныеАннотация
В статье представлена методология разработки эталонного теста для оценки навыков числового мышления в больших языковых моделях (Large Language Models, LLM). Под числовым мышлением в контексте LLM понимается способность модели корректно интерпретировать, обрабатывать и использовать числовую информацию в тексте – включая понимание значений чисел, их соотношений, выполнение арифметических операций, а также корректную генерацию числительных в ответах. Предложенная методология основана на декомпозиции прикладных задач и позволяет оценивать отдельные аспекты числового мышления на примере задач с числительными. Особое внимание уделяется способу представления чисел в текстовых инструкциях к LLM, поскольку это напрямую влияет на качество итогового ответа. Необходимость точной оценки числового мышления LLM обусловлена тем, что эта способность критически важна для широкого спектра прикладных задач работы с текстами, в том числе для автоматизированного составления кратких изложений, генерации аналитических отчётов, извлечения и интерпретации количественных данных, а также для диалоговых систем, работающих с финансовой, научной или технической информацией. На основе анализа современных подходов к оценке LLM сформулированы основные принципы построения эталонных тестов с упором на универсальность и применимость в реальных сценариях. В соответствии с предложенной методологией разработан эталонный тест MUE (Math Understanding Evaluation), включающий пять наборов тестовых заданий, каждый из которых предназначен для оценки отдельного аспекта числового мышления LLM. Проведена сравнительная оценка качества популярных LLM, определены лидеры, а также выявлены сильные и слабые стороны их числового мышления. Полученные результаты могут использоваться разработчиками LLM для улучшения архитектур и стратегий обучения, а также конечными пользователями и интеграторами для выбора оптимальной модели в прикладных проектах.
Литература
2. Team G., Anil R., Borgeaud S., Alayrac J.B., Yu J., Soricut R., Blanco L, et al. Gemini: a family of highly capable multimodal models. 2023. arXiv preprint arXiv:2312.11805.
3. Jiang A.Q., Sablayrolles A., Mensch A., Bamford C., Chaplot D.S., Casas D.D., Sayed W.E., et al. Mistral 7B. 2023. arXiv preprint arXiv:2310.06825.
4. Touvron H., Lavril T., Izacard G., Martinet X., Lachaux M.A., Lacroix T., Rozière B., Goyal N., Hambro E., Azhar F., Rodriguez A., Joulin A., Grave E., Lample G. Llama: Open and efficient foundation language models. 2023. arXiv preprint arXiv:2302.13971.
5. Дагаев А.Е., Попов Д.И. Сравнение автоматического обобщения текстов на русском языке. Программные системы и вычислительные методы. 2024. Т. 4. С. 13–22. DOI: 10.7256/2454-0714.2024.4.69474.
6. Tsanda A., Bruches E. Russian-Language Multimodal Dataset for Automatic Summarization of Scientific Papers. 2024. arXiv preprint arXiv:2405.07886.
7. Liu A., Feng B., Wang B., Wang B., Liu B., Zhao C., Dengr C., Ruan C., Dai D., Guo D., Yang D., et al. Deepseek-v2: A strong, economical, and efficient mixture-of-experts language model. 2024. arXiv preprint arXiv:2405.04434.
8. Fan J., Martinson S., Wang E.Y., Hausknecht K., Brenner J., Liu D., Peng N., Wang C., Brenner M.P. HARDMath: A Benchmark Dataset for Challenging Problems in Applied Mathematics. 2024. arXiv preprint arXiv:2410.09988.
9. Saxton D., Grefenstette E., Hill F., Kohli P. Analysing mathematical reasoning abilities of neural models. 2019. arXiv preprint arXiv:1904.01557.
10. Hendrycks D., Burns C., Kadavath S., Arora A., Basart S., Tang E., Song D., Steinhardt J. Measuring mathematical problem solving with the math dataset. 2021. arXiv preprint arXiv:2103.03874.
11. Lu P., Bansal H., Xia T., Liu J., Li C., Hajishirzi H., Cheng H., Chang K.W., Galley M., Gao J. Mathvista: Evaluating mathematical reasoning of foundation models in visual contexts. 2023. arXiv preprint arXiv:2310.02255.
12. Glazer E., Erdil E., Besiroglu T., Chicharro D., Chen E., Gunning A., Olsson C.F., Denain J.S., Ho A., Santos E.D., Järviniemi O., et al. Frontiermath: A benchmark for evaluating advanced mathematical reasoning in ai. 2024. arXiv preprint arXiv:2411.04872.
13. Li H., Chen X., Xu Z., Li D., Hu N., Teng F., Li Y., Qiu L., Zhang C.J., Li Q., Chen L. Exposing numeracy gaps: A benchmark to evaluate fundamental numerical abilities in large language models. 2025. arXiv preprint arXiv:2502.11075.
14. Yang H., Hu Y., Kang S., Lin Z., Zhang M. Number cookbook: Number understanding of language models and how to improve it (2024). arXiv preprint arXiv:2411.03766.
15. Rahman R. Large Language Models in Numberland: A Quick Test of Their Numerical Reasoning Abilities. 2025. arXiv preprint arXiv:2504.00226.
16. Sennrich R., Haddow B., Birch A. Neural machine translation of rare words with subword units. 2015. arXiv preprint arXiv:1508.07909.
17. Schuster M., Nakajima K. Japanese and korean voice search. IEEE international conference on acoustics, speech and signal processing (ICASSP). 2012. pp. 5149–5152.
18. Kudo T., Richardson J. Sentencepiece: A simple and language independent subword tokenizer and detokenizer for neural text processing. 2018. arXiv preprint arXiv:1808.06226.
19. Myrzakhan A., Bsharat S.M., Shen Z. Open-LLM-Leaderboard: From Multi-choice to Open-style Questions for LLMs Evaluation, Benchmark, and Arena. 2024. arXiv preprint arXiv:2406.07545.
20. Zhou J., Lu T., Mishra S., Brahma S., Basu S., Luan Y., Zhou D., Hou L. Instruction-following evaluation for large language models. 2023. arXiv preprint arXiv:2311.07911.
21. Suzgun M., Scales N., Schärli N., Gehrmann S., Tay Y., Chung H.W., Chowdhery A., Le Q.V., Chi E.H., Zhou D., Wei J. Challenging big-bench tasks and whether chain-of-thought can solve them. 2022. arXiv preprint arXiv:2210.09261.
22. Rein D., Hou B.L., Stickland A.C., Petty J., Pang R.Y., Dirani J., Michael J., Bowman S.R. Gpqa: A graduate-level google-proof q&a benchmark. 2023. arXiv preprint arXiv:2311.12022.
23. Sprague Z., Ye X., Bostrom K., Chaudhuri S., Durrett G. Musr: Testing the limits of chain-of-thought with multistep soft reasoning. 2023. arXiv preprint arXiv:2310.16049.
24. Hendrycks D., Burns C., Basart S., Zou A., Mazeika M., Song D., Steinhardt J. Measuring massive multitask language understanding. 2020. arXiv preprint arXiv:2009.03300.
25. Fenogenova A., Chervyakov A., Martynov N., Kozlova A., Tikhonova M., Akhmetgareeva A., Emelyanov A., Shevelev D., Lebedev P., Sinev L., Isaeva U., et al. Mera: A comprehensive LLM evaluation in Russian. 2024. arXiv preprint arXiv:2401.04531.
26. Wang A., Pruksachatkun Y., Nangia N., Singh A., Michael J., Hill F., Levy O., Bowman S. Superglue: A stickier benchmark for general-purpose language understanding systems. Advances in neural information processing systems. 2019. vol. 32.
27. Shavrina T., Fenogenova A., Emelyanov A., Shevelev D., Artemova E., Malykh V., Mikhailov V., Tikhonova M., Chertok A., Evlampiev A. RussianSuperGLUE: A Russian language understanding evaluation benchmark. 2020. arXiv preprint arXiv:2010.15925.
28. Ribeiro M.T., Wu T., Guestrin C., Singh S. Beyond accuracy: Behavioral testing of NLP models with CheckList. 2020. arXiv preprint arXiv:2005.04118.
29. Luo H., Sun Q., Xu C., Zhao P., Lou J., Tao C., Geng X., Lin Q., Chen S., Zhang D. Wizardmath: Empowering mathematical reasoning for large language models via reinforced evol-instruct. 2023. arXiv preprint arXiv:2308.09583.
30. Zhang T., Kishore V., Wu F., Weinberger K.Q., Artzi Y. Bertscore: Evaluating text generation with bert. 2019. arXiv preprint arXiv:1904.09675.
31. Lin C.Y. Rouge: A package for automatic evaluation of summaries. Text summarization branches out. 2004. pp. 74–81.
32. Rajpurkar P., Zhang J., Lopyrev K., Liang P. Squad: 100,000+ questions for machine comprehension of text. 2016. arXiv preprint arXiv:1606.05250.
33. Amigó E., Giménez J., Gonzalo J., Màrquez L. MT evaluation: Human-like vs. human acceptable. Proceedings of the COLING/ACL 2006 Main Conference Poster Sessions. 2006. pp. 17–24.
34. Celikyilmaz A., Clark E., Gao J. Evaluation of text generation: A survey. 2020. arXiv preprint arXiv:2006.14799.
35. Dong C., Li Y., Gong H., Chen M., Li J., Shen Y., Yang M. A survey of natural language generation. ACM Computing Surveys. 2022. vol. 55(8). pp. 1–38.
36. Chen M., Tworek J., Jun H., Yuan Q., Pinto H.P., Kaplan J., Edwards H., Burda Y., Joseph N., Brockman G., Ray A., et al. Evaluating large language models trained on code. 2021. arXiv preprint arXiv:2107.03374.
37. Zheng L., Chiang W.L., Sheng Y., Zhuang S., Wu Z., Zhuang Y., Lin Z., Li Z., Li D., Xing E., Zhang H. Judging llm-as-a-judge with mt-bench and chatbot arena. Advances in Neural Information Processing Systems. 2023. vol. 36. 46595–46623.
38. Chicco D., Jurman G. The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC genomics. 2020. vol. 21. pp. 1–3.
Опубликован
Как цитировать
Раздел
Copyright (c) Сергей Николаевич Карпович, Александр Викторович Смирнов, Николай Николаевич Тесля

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).