Адаптивное формирование выборок данных для самоорганизующихся систем контрастного обучения

Илья Сергеевич Лебедев

doi:10.15622/ia.25.3.1

Илья Сергеевич Лебедев Федеральное государственное бюджетное учреждение науки «Санкт-Петербургский Федеральный исследовательский центр Российской академии наук» (СПб ФИЦ РАН) Orcid

DOI:

https://doi.org/10.15622/ia.25.3.1

Ключевые слова:

машинное обучение, адаптивные модели, повышение качества обработки, формирование патчей

Аннотация

Применение самообучения и самоорганизующихся моделей для задач классификации и прогнозирования при обработке временных рядов и информационных последовательностей сталкивается с рядом проблемных вопросов организации данных. Повышение показателей качества обработки таких систем вызывает необходимость совершенствования методов выбора объектов наблюдения для обучающих выборок данных. В статье предложен метод формирования и анализа выборок данных на основе определения патчей информационной последовательности, обладающих разными характеристиками длины и сдвига, отличающаяся использованием функционала качества моделей обработки. На основе эксперимента на модельных данных и выборках проведена оценка предлагаемого метода. Получены значения показателя качества accuracy для разных алгоритмов обработки при различных длинах и сдвигах последовательностей патча. Определены свойства полученных патчей с использованием метрик коэффициента силуэта и расстояния между центройдами. Проанализированы ошибки классифицирующих алгоритмов. Выделены доверительные интервалы ошибок. Определено, что на изменение длины и сдвига патча влияет на достигаемые значения accuracy классифицирующих алгоритмов. Предлагаемый метод дает возможность повысить показатель accuracy за счет выбора длины и сдвига при формировании патча и назначения моделей, которые имеют наилучшие показатели. Результаты показывают возможность увеличения на 6-10% для слабых моделей, в то время как для сильных моделей наблюдается улучшение на 1-5% в сценариях с ограниченными данными. Анализ предложенного решения показывает, что варьирование параметрами сдвига и длины последовательности при формирования обучающих выборок данных оказывает влияние на эффективность обработки данных.

Литература

1. Jarantow S.W., Pisors E.D., Chiu M.L. Introduction to the Use of Linear and Nonlinear Regression Analysis in Quantitative Biological Assays // Current Protocols. 2023. vol. 3. 801 p. DOI: 10.1002/cpz1.801.
2. He Y., Zhang X., Kong X., Yao L., Song Z. Causality-driven sequence segmentation assisted soft sensing for multiphase industrial processes // Neurocomputing. 2025. vol. 631 p. 129612. DOI: 10.1016/j.neucom.2025.129612.
3. Ци Д., Буре В.М. Исследование методов прогнозирования временных рядов для предсказания качества воздуха: объяснительный сравнительный анализ // Вестник Санкт-Петербургского университета. Прикладная математика. Информатика. Процессы управления. 2024. Т. 20. №2. С. 206–219. DOI: 10.21638/spbu10.2024.206.
4. Man T., Osipov V.Yu., Zhukova N., Subbotin A.N., Ignatov D.I. Neural networks for intelligent multilevel control of artificial and natural objects based on data fusion: A survey // Information Fusion. 2024. vol. 110. 102427 p. DOI: 10.1016/j.inffus.2024.102427.
5. Belitser E., Ghosal S. Bayesian uncertainty quantification and structure detection for multiple change points models // Bernoulli. 2025. vol. 31. no. 2. pp. 1181–1205. DOI: 10.3150/24-BEJ1766.
6. Xiao Z., Xing H., Qu R., Feng L., Luo S., Dai P., Zhao B., Dai Y. Densely Knowledge-Aware Network for Multivariate Time Series Classification // IEEE Transactions on Systems, Man, and Cybernetics: Systems. 2024. vol. 54. no. 4. pp. 2192–2204. DOI: 10.1109/TSMC.2023.3342640.
7. Liu M., Zeng A., Chen M., Xu Z., Lai Q., Ma L., Xu Q. Scinet: Time Series Modeling and Forecasting With Sample Convolution and Interaction // Advances in Neural Information Processing Systems. 2022. vol. 35. pp. 1–13.
8. Lebedev I.S., Sukhoparov M.E. Adaptive Learning and Integrated Use of Information Flow Forecasting Methods // Emerging Science Journal. 2023. vol. 7. no. 3. pp. 704–723.
9. Chen D., Chen L., Zhang Y., Wen B., Yang C. A Multiscale Interactive Recurrent Network for Time-Series Forecasting // IEEE Transactions on Cybernetics. 2021. vol. 52. no. 9. pp. 8793–8803. DOI: 10.1109/TCYB.2021.3055951.
10. Лебедев И.С. Адаптивное применение моделей машинного обучения на отдельных сегментах выборки в задачах регрессии и классификации // Информационно-управляющие системы. 2022. №3. С. 20–30. DOI: 10.31799/1684-8853-2022-3-20-30.
11. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A.N., Kaiser L., Polosukhin I. Attention is All you Need // Advances in Neural Information Processing Systems. 2017. vol. 30. pp. 1–11.
12. Wang J., Jiang J., Jiang W., Li C., Zhao W.X. LibCity: An open library for traffic prediction // Proceedings of the 29th International Conference on Advances in Geographic Information Systems, SIGSPATIAL’21. 2021. pp. 145–148. DOI: 10.1145/3474717.3483923.
13. Grover S., Jalali A., Etemad A. Segment, Shuffle, and Stitch: A Simple Layer for Improving Time Series Representations // Proceedings of the 38th Conference on Neural Information Processing Systems (NeurIPS). 2024. pp. 4878–4905. DOI: 10.52202/079017-0158.
14. Salehi A., Balasubramanian M. DDCNet: Deep dilated convolutional neural network for dense prediction // Neurocomputing. 2023. vol. 523. pp. 116–129. DOI: 10.1016/j.neucom.2022.12.024.
15. Chen Y., Lu X., Xie Q. Collaborative networks of transformers and convolutional neural networks are powerful and versatile learners for accurate 3D medical image segmentation // Computers in Biology and Medicine. 2023. vol. 164 p. 107228. DOI: 10.1016/j.compbiomed.2023.107228.
16. Woo G., Liu C., Kumar A., Xiong C., Savarese S., Sahoo D. Unified Training of Universal Time Series Forecasting Transformers // Proceedings of the 41st International Conference on Machine Learning (ICML). 2024. pp. 1–25.
17. Ekambaram V., Ati A., Nguyen N., Sinthong P., Kalagnanam J. TSMixer: Lightweight MLP-Mixer Model for Multivariate Time Series Forecasting // Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD ’23). 2023. pp. 459–469. DOI: 10.1145/3580305.3599533.
18. Goswami M., Szafer K., Choudhry A. et al. Moment: A Family of Open Time-Series Foundation Models // Proceedings of the 41st International Conference on Machine Learning. vol. 235. 2024. pp. 16115–16152.
19. Vishwas B.V.K., Macharla S.R. MOIRAI: A Time Series LLM for Universal Forecasting // Time Series Forecasting Using Generative AI. 2025. pp. 183–194. DOI: 10.1007/979-8-8688-1276-7_7.
20. Yang H., Yang D. CSwin-PNet: A CNN-Swin Transformer combined pyramid network for breast lesion segmentation in ultrasound images // Expert Systems with Applications. 2023. vol. 213. part b. 119024 p. DOI: 10.1016/j.eswa.2022.119024.
21. Xiao Q., Wu B., Zhang Yu., Liu S., Pechenizkiy M., Mocanu E., Mocanu D.C. Dynamic Sparse Network for Time Series Classification: Learning What to “see” // Advances in Neural Information Processing Systems. 2022. vol. 35. pp. 1–14.
22. Liu M., Zeng A., Chen M., Xu Z., Lai Q., Ma L., Xu Q. Scinet: Time Series Modeling and Forecasting with Sample Convolution and Interaction // Advances in Neural Information Processing Systems. 2022. vol. 35. pp. 5816–5828.
23. Zhou H., Zhang S., Peng J., Zhang S., Li J., Xiong H., Zhang W. Informer: Beyond efficient transformer for long sequence time-series forecasting // AAAI Conference on Artificial Intelligence. 2021. vol. 35. no. 12. pp. 11106–11115.
24. Wu H., Xu J., Wang J., Long M. Autoformer: Decomposition transformers with auto-correlation for long-term series forecasting // Advances in Neural Information Processing Systems. 2021. vol. 34. pp. 22419–22430.
25. Chen Y., Ren K., Wang Y., Fang Y., Sun W., Li D. Contiformer: Continuous-time transformer for irregular time series modeling // Advances in Neural Information Processing Systems. 2024. vol. 36. pp. 47143–47175.
26. Zeng A., Chen M., Zhang L., Xu Q. Are transformers effective for time series forecasting? // Proceedings of the AAAI Conference on Artificial Intelligence. 2023. vol. 37. no. 9. pp. 11121–11128.
27. Lee S., Park T., Lee K. Soft contrastive learning for time series // The International Conference on Learning Representations. 2024. vol. 37. pp. 11121–11128.
28. Tallman E., West M. Bayesian predictive decision synthesis // Journal of the Royal Statistical Society. Series B: Statistical Methodology. 2024. vol. 86. no. 2. pp. 340–363.
29. Lebedev I.S., Sukhoparov M.E. Adaptive Learning and Integrated Use of Information Flow Forecasting Methods // Emerging Science Journal. 2023. vol. 7. no. 3. pp. 704–723.
30. Peng Y., Hu X., Hao X., Liu P., Deng Y., Li Z. Spider-Net: High-resolution multi-scale attention network with full-attention decoder for tumor segmentation in kidney, liver and pancreas // Biomedical Signal Processing and Control. 2024. vol. 93. p. 106163. DOI: 10.1016/j.bspc.2024.106163.
31. Lebedev I., Sukhoparov M., Semenov V., Khasanov D. Adaptive Segmentation of Information Sequences for Machine Learning Modular Regression Models // Emerging Science Journal. 2025. vol. 9. no. 5. pp. 2420–2438.
32. Shi X., Song X., Deng M., Zhang D., Li X., Chen B. UNet and Swin Transformer Fusion Network for Lesion Segmentation in Biological Kidney Imaging // International Journal of Pattern Recognition and Artificial Intelligence. 2025. vol. 39. no. 12. 2550021 p. DOI: 10.1142/s0218001425500211.
33. Kaggle. E-Commerce Data. URL: https://www.kaggle.com/datasets/carrie1/ecommerce-data (дата обращения: 01.12.2025).
34. Kaggle. Hourly energy demand generation and weather. URL: https://www.kaggle.com/nicholasjhana/energy-consumption-generation-prices-and-weather/data (дата обращения: 01.12.2025).
35. Kaggle. Pima Indians Diabetes Database. URL: https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database (дата обращения: 01.12.2025).

Просмотры	132
Скачивания	121

Искусственный интеллект, инженерия данных и знаний

Адаптивное формирование выборок данных для самоорганизующихся систем контрастного обучения

DOI:

Ключевые слова:

Аннотация

Литература

Опубликован

Статистика

Как цитировать

Выпуск

Раздел

Импакт-фактор

Разделы

Мы в сети

Обратная связь