Повышение репрезентативности обучающего набора данных за счет пространственной балансировки
Ключевые слова:
машинное обучение, малые наборы данных, репрезентативность данных, синтез данных, нейронные сети, логистическая регрессияАннотация
В работе исследуются некоторые проблемы машинного обучения, связанные с анализом данных малого объема. А именно, решается задача формирования обучающего набора, обладающего высокой репрезентативностью в задачах многоклассовой классификации. Известно, что межклассовая и внутриклассовая несбалансированность, свойственная малым наборам данных, негативно влияет на качество работы алгоритмов. С целью их устранения в машинном обучении разработаны некоторые методы синтеза данных, дополняющие имеющийся набор и уравнивающие количество объектов каждого из классов. Однако такие методы не всегда решают проблему недостаточной репрезентативности. В данной статье предлагается метод построения репрезентативного обучающего набора данных за счет задания распределения, в наибольшей степени соответствующего действительности. Распределение формируется по каждому признаку в пределах информативных областей. Информативные области содержат характерные значения признаков, наиболее значимые для различения классов объектов. Предложенный метод построения областей основан на идее поэтапного расширения, сопровождающегося ростом информативности областей. При этом под информативностью понимается мера, отражающая то, насколько хорошо с помощью рассматриваемой области можно разделить объекты различных классов. С целью формирования дополняющего набора данных разработан метод генерации. В результате его применения дополняющий набор данных объединяется с исходным и образует в информативной области указанное распределение. Это распределение может быть задано либо на основе экспертных знаний о предметной области, если известно истинное распределение, либо получено в результате вычислительных экспериментов, направленных на поиск наиболее эффективного варианта. Применимость метода продемонстрирована на примере решения задачи определения уровня температурных аномалий молочных желёз. Показано, что для рассматриваемых температурных признаков характерно нормальное распределение. Повышение репрезентативности обучающего набора позволило обучить классический алгоритм классификации – логистическую регрессию – с точностью, сопоставимой с многослойной нейронной сетью. Такой подход к формированию обучающего набора данных открывает возможность создания более прозрачных и интерпретируемых систем искусственного интеллекта.
Литература
2. Kumar S., Datta S., Singh V., Singh S.K., Sharma R. Opportunities and Challenges in Data-Centric AI // IEEE Access. 2024. vol. 12. pp. 33173–33189.
3. Hamid O.H. Data-Centric and Model-Centric AI: Twin Drivers of Compact and Robust Industry 4.0 Solutions // Applied Sciences. 2023. vol. 13. no. 5. DOI: 10.3390/app13052753.
4. Emmanuel T., Maupong T., Mpoeleng D., Semong T., Mphago B., Tabona O. A survey on missing data in machine learning // Journal of Big Data. 2021. vol. 8. no. 1. DOI: 10.1186/s40537-021-00516-9.
5. Gerber S, Pospisil L, Sys S, Hewel C, Torkamani A, Horenko I Co-Inference of Data Mislabelings Reveals Improved Models in Genomics and Breast Cancer Diagnostics // Frontiers in Artificial Intelligence 2022. vol. 4. DOI: 10.3389/frai.2021.739432.
6. Feng W., Quan Y., Dauphin G. Label Noise Cleaning with an Adaptive Ensemble Method Based on Noise Detection Metric // Sensors. 2020. no. 20(23). DOI: org/10.3390/s20236718.
7. Чехомова О.В. О проблемах формирования административной ответственности за нарушения прав пациента // Юристъ - Правоведъ. 2010. № 3. C. 120–123.
8. Собянин К.В., Куликова С.П. Unet-boosted classifier – мультизадачная архитектура для малых выборок на примере классификации МРТ снимков головного мозга // Информатика и автоматизация. 2024. Т. 23. № 4. C. 1022–1046.
9. Зуев Ю.Ф. Сравнительная оценка достоверности биологических данных при малых выборках методами дисперсионного, кластерного и графового анализа (нестохастический подход) // Актуальные проблемы гуманитарных и естественных наук. 2015. № 1-1. С. 36–45.
10. Моргунова А.В., Сажина О.С. Использование непараметрических методов математической статистики для поиска космических струн // Вестник Московского университета. Серия 3. Физика. Астрономия. 2019. № 5. C. 86–92.
11. Мокеев В.В., Томилов С.В. О решении проблемы выборки малого размера при использовании линейного дискриминантного анализа в задачах распознавания лиц // Бизнес-информатика. 2013. № 1(23). C. 37–43.
12. Алексахина К.А., Жуков В.В. Особенности построения моделей машинного обучения на малых наборах данных в биомедицине // Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем. Российский университет дружбы народов, 2021. С. 151–155.
13. Hu Y., Sandt R., Spatschek R. Practical feature filter strategy to machine learning for small datasets in chemistry // Scientific Reports. 2024. vol. 14. no. 1. DOI: 10.1038/s41598-024-71342-1.
14. Safonova A., Ghazaryan G., Stiller S., Main-Knorn M., Nendel C., Ryo M. Ten deep learning techniques to address small data problems with remote sensing // International Journal of Applied Earth Observation and Geoinformation. 2023. vol. 125. DOI: 10.1016/j.jag.2023.103569.
15. He H., Garcia E.A. Learning from Imbalanced Data // IEEE Transactions on Knowledge and Data Engineering. 2009. vol. 21. no. 9. pp. 1263–1284. DOI: 10.1109/TKDE.2008.239.
16. Polyakov M., Sirotin D. A Realistic Breast Phantom for Investigating the Features of the Microwave Radiometry Method Using Mathematical and Physical Modelling // Technologies. 2025. vol. 13(3). DOI: 10.3390/technologies13030106.
17. Chawla N.V., Bowyer K.W., Hall L.O., Kegelmeyer W.P. SMOTE: synthetic minority over-sampling technique // Journal of Artificial Intelligence Research. 2002. vol. 16. pp. 321–357. DOI: 10.1613/jair.953.
18. Hauptmann T., Fellenz S., Nathan L., Tuscher O., Kramer S. Discriminative Machine Learning for Maximal Representative Subsampling // Scientific Reports. 2023. vol. 13. no. 1. DOI: 10.1038/s41598-023-48177-3.
19. Priestley M., O’Donnell F., Simperl E. A Survey of Data Quality Requirements That Matter in ML Development Pipelines // ACM Journal of Data and Information Quality. 2023. vol. 15. no. 2. pp. 1–39. DOI: 10.1145/3592616.
20. Levshinskii V. Mathematical models for analyzing and interpreting microwave radiometry data in medical diagnosis // Journal of computational and engineering mathematics. 2021. vol. 8. no. 1. pp. 3–14.
21. Лебедев А.В., Фадеева Л.Н. Теория вероятностей и математическая статистика (4-е издание) // М.: Наука. 2018. 408 с.
22. Kwon S., Lee S. Recent Advances in Microwave Imaging for Breast Cancer Detection // International journal of biomedical imaging. 2016. vol. 2016. pp. 1–25. DOI: 10.1155/2016/5054912.
23. Barrett A.H., Myers P.C. Subcutaneous Temperature: A method of Noninvasive Sensing // Science. 1975. vol. 190. pp. 669–671. DOI: 10.1126/science.1188361.
24. Barrett A.H., Myers Ph.C., Sadovsky N.L. Microwave Thermography in the Detection of Breast Cancer // AJR. American journal of roentgenolog. 1980. vol. 134(2). pp. 365–368. DOI: 10.2214/ajr.134.2.365.
25. Gautherie M. Temperature and Blood Flow Patterns in Breast Cancer During Natural Evolution and Following Radiotherapy // Progress in Clinical and Biological Research. 1982. pp. 21–64.
26. Троицкий В.С. К теории контактных радиометрических измерений внутренней температуры тел // Радиофизика. 1981. Т. 2. № 9. C. 1054–1061.
27. Goryanin I., Karbainov S., Shevelev O., Tarakanov A., Redpath K., Vesnin S., Ivanov Yu. Passive microwave radiometry in biomedical studies // Drug Discovery Today. 2020. vol. 25. no. 4. pp. 757–763.
28. Попов И.Е., Крылова А.Е. Анализ термометрических данных головного мозга, полученных методом микроволновой радиотермометрии // Математическая физика и компьютерное моделирование. 2023. Т. 26. № 2. С. 32–42. DOI: 10.15688/mpcm.jvolsu.2023.2.3.
29. Sedankin M.K., Gudkov A.G., Nelin I.V., Skuratov V.A., Leushin V.Yu, Chizhikov S.V., Sidorov I.A. Mathematical modeling of heat exchange processes in the brain in the presence of pathology for the design of a microwave radiothermograph // Bio-Medical Engineering. 2023. vol. 57. no. 4. pp. 276–279. DOI: 10.1007/s10527-023-10314-7.
30. Li J., Galazis C., Popov L., Ovchinnikov L., Kharybina T., Vesnin S., Losev A., Goryanin I Dynamic Weight Agnostic Neural Networks and Medical Microwave Radiometry (MWR) for Breast Cancer Diagnostics // Diagnostics. 2022. vol. 12. no. 9. DOI: 10.3390/diagnostics12092037.
31. Веснин С.Г., Каплан М.А., Авакян Р.С. Современная микроволновая
радиотермометрия молочных желез // Опухоли женской репродуктивной системы. 2008. № 3. С. 28–33. DOI: 10.17650/1994-4098-2008-0-3-28-33.
32. Лосев А.Г., Левшинский В.В. Интеллектуальный анализ данных микроволновой радиотермометрии в диагностике рака молочной железы // Математическая физика и компьютерное моделирование. 2017. Т. 20. № 5. С. 49–62. DOI: 10.15688/mpcm.jvolsu.2017.5.6.
33. Лосев А.Г., Левшинский В.В. Интеллектуальный анализ термометрических данных в диагностике молочных желез // Управление большими системами: сборник трудов. 2017. № 70. С. 113–135.
34. Levshinskii V., Galazis C., Ovchinnikov L., Vesnin S., Goryanin I. Application of Data Mining and Machine Learning in Microwave Radiometry (MWR) // Communications in Computer and Information Science (CCIS). 2020. vol. 1211. pp. 265–288. DOI: 10.1007/978-3-030-46970-2_13.
35. Гермашев И.В., Дубовская В.И. Применение моделей нечеткой математики для решения задач медицинской диагностики // Математическая физика и компьютерное моделирование. 2021. Т. 24. № 4. С. 53–66. DOI: 10.15688/mpcm.jvolsu.2021.4.4.
36. Osmonov B., Ovchinnikov L., Galazis C., Emilov B., Karaibragimov M., Seitov M., Vesnin S., Losev A., Levshinskii V., Popov I., Mustafin C., Kasymbekov T., Goryanin I. Passive Microwave Radiometry for the Diagnosis of Coronavirus Disease 2019 Lung Complications in Kyrgyzstan // Diagnostics. 2021. vol. 11. no. 2. DOI: 10.3390/diagnostics11020259.
37. Лосев А.Г., Попов И.Е., Гудков А.Г., Чижиков С. В. Интеллектуальный анализ данных микроволновой радиотермометрии в медицинской диагностике // Нанотехнологии: разработка, применение – XXI век. 2023. Т. 15. № 1. С. 5–22. DOI: 10.18127/j22250980-202301-01.
38. Ahmad H.F., Mukhtar H., Alaqail H., Seliaman M., Alhumam A. Investigating Health-Related Features and Their Impact on the Prediction of Diabetes Using Machine Learning // Applied Sciences. 2021. vol. 11. no. 3. DOI: 10.3390/app11031173.
Опубликован
Как цитировать
Раздел
Copyright (c) Илларион Евгеньевич Попов, Александр Георгиевич Лосев, Анастасия Сергеевна Резникова

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).