Итеративная настройка параметров моделей на основе древовидных ансамблей с использованием байесовской оптимизации для прогнозирования рака молочной железы
Ключевые слова:
итеративная настройка, модели на основе древовидных ансамблей, байесовская оптимизация, рак молочной железы, машинное обучениеАннотация
Представлен метод итеративной настройки параметров моделей на основе ансамблей деревьев с использованием настройки байесовских гиперпараметров для прогнозирования состояний на примере рака молочной железы. Предлагаемый метод использует три различных набора данных, в том числе набор данных по диагностическому раку молочной железы Висконсина (WDBC), набор данных по надзору, эпидемиологии и конечным результатам (SEER) по раку молочной железы и набор данных по раку молочной железы в Коимбре (BCCD), а также реализует набор данных на основе древовидных ансамблей. Модели, в частности AdaBoost, Gentle-Boost, LogitBoost, Bag и RUSBoost, для прогнозирования рака молочной железы. Байесовская оптимизация использовалась для итеративной настройки гиперпараметров моделей, а производительность моделей оценивалась с использованием нескольких показателей, включая точность, прецизионность, полноту и оценку f1. Наши результаты показывают, что предложенный метод значительно повышает производительность моделей на основе ансамблей деревьев, что приводит к более высокой точности, прецизионности, полноте и оценке f1. По сравнению с другими современными моделями предлагаемый метод более эффективен. Он достиг 100% идеальных результатов по точности, прецизионности, полноте и оценке F1 в наборе данных WDBC. В наборе данных SEER BC точность метода составила 95,9%, прецизионность 97,6%, полнота 94,2% и оценка F1 95,9%. Для набора данных BCCD метод достиг точности 94,7%, прецизионности 90%, полноты 100% и оценки F1 94,7%. Результаты этого исследования имеют важное значение для медицинских работников, поскольку раннее выявление рака молочной железы может значительно повысить шансы на выживание. В целом, это исследование вносит ценный вклад в область прогнозирования рака молочной железы с использованием машинного обучения.
Литература
2. Visvanathan K., Fabian C.J., Bantug E., Brewster A.M., Davidson N.E., DeCensi A., et al. Use of endocrine therapy for breast cancer risk reduction: ASCO clinical practice guideline update. Journal of clinical oncology. 2019. vol. 37. no. 33. pp. 3152–3165.
3. Thirthagiri E., Lee S.Y., Kang P., Lee D.S., Toh G.T., Selamat S., Yoon S.Y., Mohd Taib N.A., Nhong M.K., Yip C.H., Teo S.H. Evaluation of BRCA1 and BRCA2 mutations and risk-prediction models in a typical Asian country (Malaysia) with a relatively low incidence of breast cancer. Breast Cancer Research. 2008. vol. 10. no. 4. pp. 1–12. DOI: 10.1186/bcr2118.
4. Monirujjaman Khan M., Islam S., Sarkar S., Ayaz F.I., Kabir M.M., Tazin T., Albraikan A.A., Almalki F.A. Machine learning based comparative analysis for breast cancer prediction. Journal of Healthcare Engineering. 2022. vol. 2022. DOI: 10.1155/2022/4365855.
5. Sharma D., Kumar R., Jain A. Breast Cancer Patient Classification from Risk Factor Analysis Using Machine Learning Classifiers. Emergent Converging Technologies and Biomedical Systems: Select Proceedings of ETBS 2021. 2022. pp. 491–504.
6. Ali S., Majid A., Javed S.G., Sattar M. Can-CSC-GBE: Developing Cost-sensitive Classifier with Gentleboost Ensemble for breast cancer classification using protein amino acids and imbalanced data. Computers in biology and medicine. 2016. vol. 73. pp. 38–46.
7. Gao L., Ding Y. Disease prediction via Bayesian hyperparameter optimization and ensemble learning. BMC research notes. 2020. vol. 13. pp. 1–6.
8. Sharma S.K., Vijayakumar K., Kadam V.J., Williamson S. Breast cancer prediction from microRNA profiling using random subspace ensemble of LDA classifiers via Bayesian optimization. Multimedia Tools and Applications. 2022. vol. 81. no. 29. pp. 41785–41805.
9. Rasool A., Bunterngchit C., Tiejian L., Islam M.R., Qu Q., Jiang Q. Improved machine learning-based predictive models for breast cancer diagnosis. International journal of environmental research and public health. 2022. vol. 19(6). no. 3211. DOI: 10.3390/ijerph19063211.
10. Latchoumi T.P., Ezhilarasi T.P., Balamurugan K. Bio-inspired weighed quantum particle swarm optimization and smooth support vector machine ensembles for identification of abnormalities in medical data. SN Applied Sciences. 2019. vol. 1(10). no. 1137. DOI: 10.1007/s42452-019-1179-8.
11. Lahoura V., Singh H., Aggarwal A., Sharma B., Mohammed M.A., Damasevicius R., Kadry F., Cengiz K. Cloud computing-based framework for breast cancer diagnosis using extreme learning machine. Diagnostics. 2021. vol. 11(2). no. 241. DOI: 10.3390/diagnostics11020241.
12. Showrov M.I.H., Islam M.T., Hossain M.D., Ahmed M.S. Performance comparison of three classifiers for the classification of breast cancer dataset. in 4th International conference on electrical information and communication technology (EICT). 2019. pp. 1–5.
13. Sheth P.D., Patil S.T., Dhore M.L. Evolutionary computing for clinical dataset classification using a novel feature selection algorithm. Journal of King Saud University-Computer and Information Sciences. 2022. vol. 34. pp. 5075–5082.
14. Ara S., Das A., Dey A. Malignant and benign breast cancer classification using machine learning algorithms. in 2021 International Conference on Artificial Intelligence (ICAI). 2021. pp. 97–101.
15. Lu H., Wang H., Yoon S.W. A dynamic gradient boosting machine using genetic optimizer for practical breast cancer prognosis. Expert Systems with Applications. 2019. vol. 116. pp. 340–350.
16. Wang S., Wang Y., Wang D., Yin Y., Wang Y., Jin Y. An improved random forest-based rule extraction method for breast cancer diagnosis. Applied Soft Computing. 2020. vol. 86. no. 105941. DOI: 10.1016/j.asoc.2019.105941.
17. Ozkan G.Y., Gunduz S.Y. Comparision of Classification Algorithims for Survival of Breast Cancer Patients. Innovations in Intelligent Systems and Applications Conference (ASYU). 2020. pp. 1–4.
18. Haque M.N., Tazin T., Khan M.M., Faisal S., Ibraheem S.M., Algethami H., Almalki F.A. Predicting characteristics associated with breast cancer survival using multiple machine learning approaches. Computational and Mathematical Methods in Medicine. 2022. vol. 2022. pp. 1–12. DOI: 10.1155/2022/1249692.
19. Mishra A.K., Roy P., Bandyopadhyay S. Genetic algorithm based selection of appropriate biomarkers for improved breast cancer prediction. Intelligent Systems and Applications: Proceedings of the Intelligent Systems Conference (IntelliSys). 2020. vol. 2. pp. 724–732.
20. Mishra A.K., Roy P., Bandyopadhyay S. Binary particle swarm optimization based feature selection (bpso-fs) for improving breast cancer prediction. Proceedings of International Conference on Artificial Intelligence and Applications: ICAIA 2020. 2021. pp. 373–384.
21. Breiman L. Bagging predictors. Machine learning. 1996. vol. 24. pp. 123–140.
22. Harrou F., Saidi A., Sun Y. Wind power prediction using bootstrap aggregating trees approach to enabling sustainable wind power integration in a smart grid. Energy Conversion and Management. 2019. vol. 201. no. 112077. DOI: 10.1016/j.enconman.2019.112077.
23. Buhlmann P., Yu B. Analyzing bagging. The annals of Statistics. 2002. vol. 30. no. 4. pp. 927–961.
24. Liu C., Zhao Z., Gu X., Sun L., Chen G., Zhang H., Jiang Y., Zhang Y., Cui X., Liu C. Establishment and verification of a bagged-trees-based model for prediction of sentinel lymph node metastasis for early breast cancer patients. Frontiers in Oncology. 2019. vol. 9. no. 282. DOI: 10.3389/fonc.2019.00282.
25. Deepa R., Gnanadesigan R., Ranjith D., Nithishkumar K., Dinesh A., Moorthy C. Performance Analysis of the Classification of Breast Cancer. Third International Conference on Inventive Research in Computing Applications (ICIRCA). 2021. pp. 1–6.
26. Dawngliani M., Chandrasekaran N., Lalmuanawma S., Thangkhanhau H. Prediction of breast cancer recurrence using ensemble machine learning classifiers. Security with Intelligent Computing and Big-Data Services 2019: Proceedings of the 3rd International Conference on Security with Intelligent Computing and Big-data Services (SICBS). 2020. pp. 232–244.
27. Assegie T.A., Tulasi R.L., Kumar N.K. Breast cancer prediction model with decision tree and adaptive boosting. IAES International Journal of Artificial Intelligence. 2021. vol. 10(1). no. 184.
28. Okagbue H.I., Adamu P.I., Oguntunde P.E., Obasi E.C., Odetunmibi O.A. Machine learning prediction of breast cancer survival using age, sex, length of stay, mode of diagnosis and location of cancer. Health and Technology. 2021. vol. 11. pp. 887–893.
29. Friedman J., Hastie T., Tibshirani R. Additive logistic regression: a statistical view of boosting (with discussion and a rejoinder by the authors). The annals of statistics. 2000. vol. 28. no. 2. pp. 337–407.
30. Wu J., Gan M., Jiang R. A genetic algorithm for optimizing subnetwork markers for the study of breast cancer metastasis. Seventh International Conference on Natural Computation. 2011. pp. 1578–1582.
31. Seiffert C., Khoshgoftaar T.M., Van Hulse J., Napolitano A. RUSBoost: A hybrid approach to alleviating class imbalance. IEEE transactions on systems, man, and cybernetics-part A: systems and humans. 2009. vol. 40. pp. 185–197.
32. Tian J.-X., Zhang J. Breast cancer diagnosis using feature extraction and boosted C5. 0 decision tree algorithm with penalty factor. Math Biosci Eng. 2022. vol. 19. no. 3. pp. 2193–2205.
33. Jiang X., Xu C. Deep learning and machine learning with grid search to predict later occurrence of breast Cancer metastasis using clinical data. Journal of clinical medicine. 2022. vol. 11(19). no. 5772.
34. Deshwal V., Sharma M. Breast cancer detection using SVM classifier with grid search technique. International Journal of Computer Applications. 2019. vol. 975. no. 8887.
35. Buttan Y., Chaudhary A., Saxena K. An improved model for breast cancer classification using random forest with grid search method. Proceedings of Second International Conference on Smart Energy and Communication: ICSEC 2020. 2021. pp. 407–415.
36. Assegie T.A. An optimized K-Nearest Neighbor based breast cancer detection. Journal of Robotics and Control (JRC). 2021. vol. 2. no. 3. pp. 115–118.
37. Mate Y., Somai N. Hybrid feature selection and Bayesian optimization with machine learning for breast cancer prediction. 7th International Conference on Advanced Computing and Communication Systems (ICACCS). 2021. pp. 612–619.
38. Ceylan Z. Diagnosis of breast cancer using improved machine learning algorithms based on bayesian optimization. International Journal of Intelligent Systems and Applications in Engineering. 2020. vol. 8. no. 3. pp. 121–130.
39. kaggle Repository. Breast Cancer Wisconsin Diagnostic Dataset. Available at: https://www.kaggle.com/code/karan1210/breast-cancer/data. (accessed 07.06.2022).
40. kaggle Repository. Breast Cancer Coimbra Dataset. Available at: https://www.kaggle.com/datasets/yasserhessein/breast-cancer-coimbra-data-set. (accessed 07.06.2022).
41. Surveillance, Epidemiology, and End Results (SEER) program. SEER breast cancer data. Available at: https://ieee-dataport.org/open-access/seer-breast-cancer-data. (accessed 07.06.2022).
Опубликован
Как цитировать
Раздел
Copyright (c) Ayman Alsabry
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).