Адаптивное построение регрессионных моделей на основе анализа функционала качества обработки сегментов последовательности

Илья Сергеевич Лебедев

doi:10.15622/ia.24.2.1

Илья Сергеевич Лебедев Федеральное государственное бюджетное учреждение науки «Санкт-Петербургский Федеральный исследовательский центр Российской академии наук» (СПб ФИЦ РАН)

DOI:

https://doi.org/10.15622/ia.24.2.1

Ключевые слова:

машинное обучение, адаптивные модели, повышение качества обработки, регрессионные модели

Аннотация

Рассмотрена задача адаптивного построения модели, направленной на повышение показателей качества обработки информационных последовательностей. В методах обработки данных, которые нашли применение во многих прикладных областях, применяемый анализ объектов наблюдения является вычислительно ресурсоемким и в случае изменения свойств данных, требует большого количества итераций. В статье предложена методика выбора сегментов информационной последовательности, полученных разными способами, отличающаяся использованием функционала качества регрессионных моделей обработки подпоследовательностей. Поступающие на вход последовательности объектов наблюдения подвергаются разделению различными предварительно заданными алгоритмами сегментации. На каждом полученном сегменте обучаются заранее выбранные регрессионные модели и, в зависимости от полученных значений вычисленного функционала качества, происходит назначение лучших по качественным показателям моделей на сегменты. Это позволяет формировать агрегационную модель обработки данных. На основе эксперимента на модельных данных и выборках проведена оценка предлагаемой методики. Получены значения показателя качества MSE и MAE для разных алгоритмов обработки и при различном количестве сегментов. Предлагаемая методика дает возможность повысить показатели MSE и МАЕ за счет сегментации и назначения регрессионных моделей, которые имеют наилучшие показатели на отдельных сегментах. Предложенное решение направлено на дальнейшее усовершенствование ансамблевых методов. Его применение позволяет повысить оперативность настройки базовых алгоритмов в случае трансформации свойств данных и улучшить интерпретируемость результатов. Методика может применяться при разработке моделей и методов обработки информационных последовательностей.

Литература

1. Chen H.Y., Chen C. Evaluation of Calibration Equations by Using Regression Analysis: An Example of Chemical Analysis // Sensors. 2022. vol. 22. no. 2. DOI: 10.3390/s22020447.
2. Schober P., Vetter T.R. Segmented Regression in an Interrupted Time Series Study Design // Anesthesia and Analgesia. 2021. vol. 132. no. 3. pp. 696–697.
3. Bozpolat E. Investigation of the self-regulated learning strategies of students from the faculty of education using ordinal logistic regression analysis // Educational Sciences: Theory & Practice. 2016. no. 16(1). pp. 301–318.
4. Jarantow S.W., Pisors E.D., Chiu M.L. Introduction to the use of Linear and Nonlinear Regression Analysis in Quantitative Biological Assays // Current Protocols. 2023. no. 3. DOI: 10.1002/cpz1.801.
5. Britzger D. The Linear Template Fit // The European Physical Journal C. 2022. vol. 82(8). DOI: 10.1140/epjc/s10052-022-10581-w.
6. Perperoglou A., Sauerbrei W., Abrahamowicz M., Schmid M. A review of spline function procedures in R // BMC Medical Research Methodology. 2019. vol. 19. pp. 1–16.
7. Ren J., Tapert S., Fan C.C., Thompson W.K. A semi-parametric Bayesian model for semi-continuous longitudinal data // Statistics in Medicine. 2022. vol. 41. no. 13. pp. 2354–2374.
8. Taye M.M. Theoretical Understanding of Convolutional Neural Network: Concepts, Architectures, Applications, Future Directions // Computation. 2023. vol. 11. no. 3. DOI: 10.3390/computation11030052.
9. Колмогоров А.Н. О представлении непрерывных функций нескольких переменных в виде суперпозиции непрерывных функций одного переменного // Доклады АН СССР. 1957. Т. 114. № 5. С. 953–956.
10. Girosi F., Poggio T. Representation Properties of Networks: Kolmogorov’s Theorem is Irrelevant. Neural Computation. 1989. vol. 4. no. 1. pp. 465–469.
11. Parhi R., Nowak R.D. Banach Space Representer Theorems for Neural Networks and Ridge Splines // Journal of Machine Learning Research. 2021. vol. 22(1). pp. 1960–1999.
12. Marques H.O., Swersky L., Sander J., Campello R.J., Zimek A. On the evaluation of outlier detection and one-class classification: a comparative study of algorithms, model selection, and ensembles // Data Mining and Knowledge Discovery. 2023. vol. 37. no. 4. pp. 1473–1517.
13. Li Y., Guo X., Lin W., Zhong M., Li Q., Liu Z., Zhong W., Zhu Z. Learning dynamic user interest sequence in knowledge graphs for click-through rate prediction // IEEE Transactions on Knowledge and Data Engineering. 2023. vol. 35. no. 1. pp. 647–657.
14. Rinaldo A., Wang D., Wen Q., Willett R., Yu Y. Localizing changes in highdimensional regression models // The 24th International Conference on Artificial Intelligence and Statistics. 2021. pp. 2089–2097.
15. Aue A., Rice G., Sönmez O. Detecting and dating structural breaks in functional data without dimension reduction // Journal of the Royal Statistical Society. Series B, Statistical Methodology. 2018. vol. 80. no. 3. pp. 509–529.
16. Datta A., Zou H., Banerjee S. Bayesian high-dimensional regression for change point analysis // Statistics and its Interface. 2019. vol. 12. no. 2. pp. 253–264. DOI: 10.4310/SII.2019.v12.n2.a6.
17. Melnyk I., Banerjee A. A spectral algorithm for inference in hidden semi-Markov models // Journal of Machine Learning Research. 2017. vol. 18. no. 35. pp. 1–39.
18. Haynes K., Fearnhead P., Eckley I.A. A computationally efficient nonparametric approach for changepoint detection // Statistics and Computing. 2017. vol. 27. pp. 1293–1305. DOI: 10.1007/s11222-016-9687-5.
19. Muggeo V. Estimating regression models with unknown break-points // Statistics in Medicine. 2003. vol. 22(19). pp. 3055–3071.
20. Lu K.P., Chang S.T. A fuzzy classification approach to piecewise regression models // Applied Soft Computing Journal. 2018. vol. 69. pp. 671–688.
21. Bardwell L., Fearnhead P. Bayesian detection of abnormal segments in multiple time series // Bayesian Analysis. 2017. vol. 12. no. 1. pp. 193–218.
22. Huang J., Chen P., Lu L., Deng Y., Zou Q. WCDForest: a weighted cascade deep forest model toward the classification tasks // Applied Intelligence, 2023. vol. 53. no. 23. pp. 29169–29182. DOI: 10.1007/s10489-023-04794-z.
23. Tong W., Wang Y., Liu D. An Adaptive Clustering Algorithm Based on Local-Density Peaks for Imbalanced Data Without Parameters // IEEE Transactions on Knowledge and Data Engineering. 2023. vol. 35. no. 4. pp. 3419–3432.
24. Lu K.P., Chang S.T. Fuzzy maximum likelihood change-point algorithms for identifying the time of shifts in process data // Neural Computing and Applications. 2019. vol. 31. pp. 2431–2446.
25. Nevendra M., Singh P. Software defect prediction using deep learning // Acta Polytechnica Hungarica. 2021. vol. 18. no. 10. pp. 173–189.
26. Tallman E., West M. Bayesian predictive decision synthesis // Journal of the Royal Statistical Society. Series B: Statistical Methodology. 2024. vol. 86. no. 2. pp. 340–363.
27. Korkas K., Fryzlewicz P. Multiple change-point detection for non-stationary time series using wild binary segmentation. Statistica Sinica. 2017. vol. 27. pp. 287–311. DOI: 10.5705/ss.202015.0262.
28. Silva R.P., Zarpelão B.B., Cano A., Junior S.B. Time Series Segmentation Based on Stationarity Analysis to Improve New Samples Prediction // Sensors. 2021. vol. 21(21). DOI: 10.3390/s21217333.
29. Barzegar V., Laflamme S., Hu C., Dodson J. Multi-Time Resolution Ensemble LSTMs for Enhanced Feature Extraction in High-Rate Time Series // Sensors. 2021. vol. 21(6). DOI: 10.3390/s21061954.
30. Si S., Zhao J., Cai Z., Dui H. Recent advances in system reliability optimization driven by importance measures // Frontiers of Engineering Management. 2020. vol. 7. no. 3. pp. 335–358.
31. Xu S., Song Y., Hao X. A Comparative Study of Shallow Machine Learning Models and Deep Learning Models for Landslide Susceptibility Assessment Based on Imbalanced Data // Forests. 2022. vol. 13. no. 11. DOI: 10.3390/f13111908.
32. Лебедев И.С. Адаптивное применение моделей машинного обучения на отдельных сегментах выборки в задачах регрессии и классификации // Информационно-управляющие системы. 2022. № 3(118). C. 20–30.
33. Тихонов Д.Д., Лебедев И.С. Метод формирования сегментов информационной последовательности с использованием функционала качества моделей обработки // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24. № 3. С. 474–482.
34. Lebedev I.S., Sukhoparov M.E. Adaptive Learning and Integrated Use of Information Flow Forecasting Methods // Emerging Science Journal. 2023. vol. 7. no. 3. pp. 704–723.
35. Osipov V., Nikiforov V., Zhukova N., Miloserdov D. Urban traffic flows forecasting by recurrent neural networks with spiral structures of layers // Neural Computing and Applications. 2020. vol. 32. no. 18. pp. 14885–14897.
36. Lebedev I.S., Sukhoparov M.E. Improving the Quality Indicators of Multilevel Data Sampling Processing Models Based on Unsupervised Clustering // Emerging Science Journal. 2024. vol. 8. no. 1. pp. 355–371.
37. Jin H., Yin G., Yuan B., Jiang F. Bayesian hierarchical model for change point detection in multivariate sequences // Technometrics. 2022. vol. 64. no. 2. pp. 177–186.
38. Power Supply dataset. URL: http://www.cse.fau.edu/~xqzhu/stream.html (дата обращения: 16.05.2024).
39. Lu K.-P., Chang S.-T. An Advanced Segmentation Approach to Piecewise Regression Models // Mathematics. 2023. vol. 11(24). DOI: 10.3390/math11244959.
40. Energy generation dataset. URL: https://www.kaggle.com/nicholasjhana/energy-consumption-generation-prices-and-weather/data?select=energy_dataset.csv (дата обращения: 16.05.2024).
41. Pima Indians Diabetes Database URL: https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database (дата обращения: 16.05.2024).
42. E-Commerce Data URL: https://www.kaggle.com/datasets/carrie1/ecommerce-data (дата обращения: 16.05.2024).

Просмотры	344
Скачивания	219

Математическое моделирование и прикладная математика

Адаптивное построение регрессионных моделей на основе анализа функционала качества обработки сегментов последовательности

DOI:

Ключевые слова:

Аннотация

Литература

Опубликован

Статистика

Как цитировать

Выпуск

Раздел

Импакт-фактор

Разделы

Мы в сети

Обратная связь