Оптимизация размера ансамбля регрессоров
Ключевые слова:
обрезка ансамбля, ансамбль регрессоров, обучение ансамбля, декомпозиция ошибка-разнообразие, разнообразие регрессоровАннотация
Алгоритмы обучения ансамблей, такие как bagging, часто генерируют неоправданно большие композиции, которые, помимо потребления вычислительных ресурсов, могут ухудшить обобщающую способность. Обрезка (pruning) потенциально может уменьшить размер ансамбля и повысить точность; однако большинство исследований сегодня сосредоточены на использовании этого подхода при решении задачи классификации, а не регрессии. Это связано с тем, что в общем случае обрезка ансамблей основывается на двух метриках: разнообразии и точности. Многие метрики разнообразия разработаны для задач, связанных с конечным набором классов, определяемых дискретными метками. Поэтому большинство работ по обрезке ансамблей сосредоточено на таких проблемах: классификация, кластеризация и выбор оптимального подмножества признаков. Для проблемы регрессии гораздо сложнее ввести метрику разнообразия. Фактически, единственной известной на сегодняшний день такой метрикой является корреляционная матрица, построенная на предсказаниях регрессоров. Данное исследование направлено на устранение этого пробела. Предложено условие, позволяющее проверить, включает ли регрессионный ансамбль избыточные модели, т. е. модели, удаление которых улучшает производительность. На базе этого условия предложен новый алгоритм обрезки, который основан на декомпозиции ошибки ансамбля регрессоров на сумму индивидуальных ошибок регрессоров и их рассогласованность. Предложенный метод сравнивается с двумя подходами, которые напрямую минимизируют ошибку путем последовательного включения и исключения регрессоров, а также с алгоритмом упорядоченного агрегирования (Ordered Aggregation). Эксперименты подтверждают, что предложенный метод позволяет уменьшить размер ансамбля регрессоров с одновременным улучшением его производительности и превосходит все сравниваемые методы.
Литература
2. Zhou Z., Wu J., Tang W. Ensembling neural networks: many could be better than all. Artificial Intelligence. 2002. vol. 137. no. 1–2. pp. 239–263.
3. Sagi O., Rokach L. Ensemble learning: A survey. WIREs Data Mining and Knowledge Discovery. 2018. vol. 8. no. 4. e1249.
4. Dias K., Windeatt T. Dynamic ensemble selection and instantaneous pruning for regression. Proc. of the ESANN. Bruges, 2014. pp. 643–648.
5. Martínez-Muñoz G., Hernández-Lobato D., Suárez A. An analysis of ensemble pruning techniques based on ordered aggregation. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2009. vol. 31. no. 2. pp. 245–259.
6. Mendes-Moreira J., Soares C., Jorge A.M., de Sousa J.F. Ensemble approaches for regression: A survey. ACM Computing Surveys. 2012. vol. 45. no. 1. Article 10.
7. Hernández-Lobato D., Martínez-Muñoz G., Suárez A. Empirical Analysis and Evaluation of Approximate Techniques for Pruning Regression Bagging Ensembles. Neurocomputing. 2011. vol. 74. no. 12–13. pp. 2250–2264.
8. Krogh A., Vedelsby J. Neural network ensembles, cross validation, and active learning. Advances in neural information processing systems. 1995. pp. 231–238.
9. Brown G., Wyatt J.L., Tino P. Managing diversity in regression ensembles. Journal of Machine Learning Research. 2005. vol. 6. pp. 1621–1650.
10. Hernández-Lobato D., Martínez-Muñoz G., Suárez A. Pruning in ordered regression bagging ensembles. Proceedings of the International Joint Conference on Neural Networks, Vancouver, 2006. pp. 1266–1273.
11. Breiman L. Bagging predictors. Machine Learning. 1996. vol. 24. no. 2. pp. 123–140.
12. Breiman L. Random forests. Machine learning. 2001. vol. 45. no. 1. pp. 5–32.
13. Liu Y., Yao X. Ensemble learning via negative correlation. Neural networks. 1999. vol. 12. no. 10. pp. 1399–404.
14. Friedman J.H. Greedy function approximation: A gradient boosting machine. Annals of statistics. 2001. vol. 29. no. 5. pp. 1189–1232.
15. Zhang Y., Burer S., Street W.N. Ensemble pruning via semidefinite programming. Journal of Machine Learning Research. 2006. vol. 7. pp. 1315–1338.
16. Hernández-Lobato D., Hernández-Lobato J.M., Ruiz-Torrubiano R., Valle Á. Pruning adaptive boosting ensembles by means of a genetic algorithm. International Conference on Intelligent Data Engineering and Automated Learning. Springer, 2006. pp. 322–329.
17. Qian C., Yu Y., Zhou Z. Pareto Ensemble Pruning. Proceedings of the 29th AAAI Conference on Artificial Intelligence. Austin, 2015. pp. 2935–2941.
18. Sun Q., Pfahringer B. Bagging ensemble selection for regression. Australasian Joint Conference on Artificial Intelligence. Sydney, 2012. pp. 695–706.
19. Yu Y., Zhou Z.H., Ting K.M. Cocktail ensemble for regression. Proceedings of ICDM’07, 2007. pp. 721–726.
20. Wolpert D.H. Stacked generalization. Neural Networks. 1992. vol. 5. pp. 241–259.
21. Caruana R., Niculescu-Mozil A., Crew G., Ksikes A. Ensemble selection from libraries of models. Proceedings of the ICML’04. Banf, 2004. pp. 18–25.
22. Bian Y., Wang Y., Yao Y., Chen H. Ensemble pruning based on objection maximization with a general distributed framework. IEEE Transactions on Neural Networks and Learning Systems. 2020. vol. 31. no. 9. pp. 3766–3774.
23. Mao S., Chen J., Jiao L., Gou S., Wang R. Maximizing diversity by transformed ensemble learning. Applied Soft Computing. 2019. vol. 82. p. 105580.
24. Zhou Z. Machine learning. Springer, 2021. 472 p.
25. Guo H., Liu H., Li R., Wu C., Guo Y., Xu M. Margin & diversity based ordering ensemble pruning. Neurocomputing. 2018. vol. 275. pp. 237–246.
26. Lustosa Filho J.A.S., Canuto A.M., Santiago R.H.N. Investigating the impact of selection criteria in dynamic ensemble selection methods. Expert Systems with Applications. 2018. vol. 106. pp. 141–153.
27. Fan Y., Tao L., Zhou Q., Han X. Cluster ensemble selection with constraints. Neurocomputing. 2017. vol. 235. pp. 59–70.
28. Golalipour K., Akbari E., Hamidi S.S., Lee M., Enayatifar R. From clustering to clustering ensemble selection: A review. Engineering Applications of Artificial Intelligence. 2021. vol. 104. p. 104388.
29. Zhang C., Wu Y., Zhu M. Pruning variable selection ensembles. Statistical Analysis and Data Mining: The ASA Data Science Journal. 2019. vol. 12. no. 3. pp. 168–184.
30. Baron G. Greedy selection of attributes to be discretized. (Ed.: Hassanien A.) Machine Learning Paradigms: Theory and Application. Studies in Computational Intelligence. Springer, Cham, 2019. vol. 801. pp. 45–67.
31. Khairalla M.A.E. Metaheuristic ensemble pruning via greedy-based optimization selection. International Journal of Applied Metaheuristic Computing. 2022. vol. 13. no. 1. pp. 1–22.
32. Jiang Z., Liu H., Fu B., Wu Z. Generalized ambiguity decompositions for classification with applications in active learning and unsupervised ensemble pruning. Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence (AAAI-17), 2017. pp. 2073–2079.
33. Dong X., Yu Z., Cao W., Shi Y., Ma Q. A survey on ensemble learning. Frontiers of Computer Science. 2020. vol. 14. no. 2. pp. 241–258.
34. Shahhosseini M., Hu G., Pham H. Optimizing ensemble weights and hyperparameters of machine learning models for regression problems. Machine Learning with Applications. 2022. vol. 7. p. 100251.
35. Fuhg J., Fau A., Nackenhorst U. State-of-the-Art and Comparative Review of Adaptive Sampling Methods for Kriging. Archives of Computational Methods in Engineering. 2021. vol. 28. pp. 2689–2747.
36. Liu H., Ong Y.-S., Cai J. A survey of adaptive sampling for global metamodeling in support of simulation-based complex engineering design. Structural and Multidisciplinary Optimization. 2018. vol. 57. no. 1. pp. 393–416.
37. Margineantu D.D., Dietterich T.G. Pruning adaptive boosting. Proc. of 14th International Conference on Machine Learning. ICML, 1997. pp. 211–218.
38. Hsu K.W. A theoretical analysis of why hybrid ensembles work. Computational Intelligence and Neuroscience. 2017. vol. 2017. p. 1930702.
39. Yao Y., Pirš G., Vehtari A., Gelman A. Bayesian hierarchical stacking: Some models are (somewhere) useful. Bayesian Analysis. 2022. vol. 17. no. 4. pp. 1043–1071.
40. Nuzhny A.S. Bayes regularization in the selection of weight coefficients in the predictor ensembles. Proc. ISP RAS, 2019. vol. 31. no 4. pp. 113–120. (in Russ.).
41. Demšar J. Statistical comparisons of classifiers over multiple data sets. Journal of Machine Learning Research. 2006. vol. 7. pp. 1–30.
Опубликован
Как цитировать
Раздел
Copyright (c) Юрий Александрович Зеленков
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).