CLVM: A Hybrid Deep Learning Framework for Contactless Virtual Mouse Control

Nguyen Viet Hung; Phi Dinh Huynh; Ma Van Tung; Nguyen Van Vu; Nguyen Phu Dat

doi:10.15622/ia.25.2.5

Нгуен Вьет Хунг Восточноазиатский технологический университет Orcid
Фи Динь Хуинь Восточноазиатский технологический университет Orcid
Ма Ван Тунг Восточноазиатский технологический университет
Нгуен Ван Ву Восточноазиатский технологический университет
Нгуен Фу Дат Восточноазиатский технологический университет

DOI:

https://doi.org/10.15622/ia.25.2.5

Ключевые слова:

компьютерное зрение, бесконтактный интерфейс, ориентиры кисти, машинное обучение, MediaPipe, виртуальная мышь

Аннотация

В эпоху стремительной цифровой трансформации и растущего распространения искусственного интеллекта обеспечение естественного, непрерывного и бесконтактного человеко-компьютерного взаимодействия приобретает первостепенное значение для различных областей. Данная работа представляет новую модель на базе глубокого обучения для управления виртуальной мышью посредством жестов, получившая название CLVM (CNN-LSTM Virtual Mouse). Разработанная система основывается на гибридной архитектуре, интегрирующей три мощных компонента: (1) MediaPipe – для высокоэффективной детекции ключевых ориентиров кисти в режиме реального времени; (2) сверточную нейронную сеть (CNN) – для извлечения пространственных признаков; (3) сеть долгой краткосрочной памяти (LSTM) – для моделирования временной динамики, что существенно повышает точность и непрерывность распознавания жестов во временной последовательности. В отличие от традиционных подходов, модель CLVM разработана для сохранения высокой производительности в условиях реальной среды, особенно при неравномерном освещении и наличии загроможденного фона. Система характеризуется низкой задержкой и высокой скоростью отклика, а также возможностью эффективного функционирования на устройствах с ограниченными ресурсами, что обуславливает ее пригодность для широкого практического применения. Результаты экспериментов демонстрируют, что CLVM достигает высокой точности (99,88%) при снижении потерь до 0,38, значительно превосходя по эффективности традиционные методы распознавания жестов. Полученные данные подчеркивают потенциал CLVM как надежного, масштабируемого и эффективного решения для организации естественного взаимодействия на основе жестов, представляя собой важный шаг вперед в разработке интеллектуальных, удобных для пользователя интерфейсов для бесконтактного управления.

Литература

1. Maslej N., Fattorini L., Perrault R., Gil Y., Parli V., Kariuki N., Capstick E., Reuel A., Brynjolfsson E., Etchemendy J. et al. Artificial intelligence index report. arXiv preprint arXiv:2504.07139. 2025.
2. Asgher U., Ayaz Y., Taiar R. Advances in artificial intelligence (AI) in brain computer interface (BCI) and industry 4.0 for human machine interaction (HMI). Frontiers in Human Neuroscience. 2023. vol. 17. DOI: 10.3389/fnhum.2023.1320536.
3. Sumak B., Brdnik S., Pusnik M. Sensors and artificial intelligence methods and algorithms for human–computer intelligent interaction: A systematic mapping study. Sensors. 2021. vol. 22. no. 1.
4. Mourtzis D., Angelopoulos J., Panopoulos N. The future of the human–machine interface (HMI) in society 5.0. Future Internet. 2023. vol. 15. no. 5.
5. Mukhtar H. Artificial intelligence techniques for human-machine interaction. Artificial Intelligence and Multimodal Signal Processing in Human-Machine Interaction. 2025. pp. 19–42.
6. Shibly K.H., Dey S.K., Islam M.A., Showrav S.I. Design and development of hand gesture based virtual mouse. 1st International Conference on Advances in Science, Engineering and Robotics Technology (ICASERT). IEEE, 2019. pp. 1–5. DOI: 10.1109/ICASERT.2019.8934612.
7. Shrivastava A., Pundir S., Sharma A., Srivastava A., Kumar R., Khan A.K. Control of a virtual system with hand gestures. 3rd International Conference on Pervasive Computing and Social Networking (ICPCSN). IEEE, 2023. pp. 1716–1721.
8. Reddy V.V., Dhyanchand T., Krishna G.V., Maheshwaram S. Virtual mouse control using colored finger tips and hand gesture recognition. IEEE-HYDCON. IEEE, 2020. pp. 1–5. DOI: 10.1109/HYDCON48903.2020.9242677.
9. Kasar M., Kavimandan P., Suryawanshi T., Abbad S. Ai-based real-time hand gesture-controlled virtual mouse. Australian Journal of Electrical and Electronics Engineering. 2024. vol. 21. no. 3. pp. 258–267.
10. Lugaresi C., Tang J., Nash H., McClanahan C., Uboweja E., Hays M., Zhang F., Chang C.-L., Yong M.G., Lee J., et al. Mediapipe: A framework for building perception pipelines. arXiv preprint arXiv:1906.08172. 2019.
11. Hung N.V., Loi T.Q., Binh N.H., Nga N.T.T., Huong T.T., Luu D.L. Building an online learning model through a dance recognition video based on deep learning. Informatics and Automation. 2024. vol. 23. no. 1. pp. 101–128.
12. Krizhevsky A., Sutskever I., Hinton G.E. Imagenet classification with deep convolutional neural networks. Advances in neural information processing systems. 2012. vol. 25.
13. Hochreiter S., Schmidhuber J. Long short-term memory. Neural Computation. 1997. vol. 9. no. 8. pp. 1735–1780.
14. Acharya K. Virtual mouse using hand gestures. Authorea. 2024. DOI: 10.22541/au.173161606.61659157/v1.
15. Beyeler M.. Machine Learning for OpenCV. Birmingham: Packt Publishing, 2017. 382 p.
16. Joshi P., Escriva D.M., Godoy V. OpenCV by example. Packt Publishing Ltd, 2016. 296 p.
17. Howse J. OpenCV computer vision with python. UK: Packt Publishing Birmingham, 2013. vol. 27.
18. Dharavath K., Kumar G.M., Reddy K.R., Reddy M.H. Gesture and voice controlled virtual mouse for elderly people. 2nd International Conference on Networking and Communications (ICNWC). IEEE, 2024. pp. 1–5.
19. Gupta A., Chawla N., Jain R., Thakur N., Devi A. Gesture-based touchless operations: leveraging mediapipe and OpenCV. NEU Journal for Artificial Intelligence and Internet of Things. 2023. vol. 2. no. 1.
20. Bansal B.S., Nailwal D., Bhatt G., Kumar A., Petwal H. Real-time video control via hand and eye movements using opencv and mediapipe. International Conference on Artificial Intelligence and Emerging Technology (Global AI Summit). IEEE, 2024. pp. 270–275.
21. Nandwalkar D.J., Mandal M., Khirari A., Bhalchim T. Control mouse using hand gesture and voice. International Journal for Research in Applied Science & Engineering Technology (IJRASET). 2023. vol. 11. pp. 3261–3268.
22. Hung N.V., Quan N.A., Tan N., Hai T.T., Trung D.K., Nam L.M., Loan B.T., Nga N.T.T. Building predictive smell models for virtual reality environments. Informatics and Automation. 2025. vol. 24. no. 2. pp. 556–582. DOI: 10.15622/ia.24.2.7.
23. Kruk A. The benefits of virtual learning environment (VLE) in teaching ESP. Current nutrition in the humanities. 2022.
24. Hung N., Dat P.T., Tan N., Quan N.A., Trang L., Nam L.M., et al. Heverl–viewport estimation using reinforcement learning for 360-degree video streaming. Informatics and Automation. 2025. vol. 24. no. 1. pp. 302–328.
25. Nguyen H., Dao T.N., Pham N.S., Dang T.L., Nguyen T.D., Truong T.H. An accurate viewport estimation method for 360 video streaming using deep learning. EAI Endorsed Trans. Ind. Networks Intell. Syst. 2022. vol. 9. no. 4.
26. Kumar M., Rathi G., Singh T., NL T. CNN based virtual whiteboard application. Second International Conference on Advances in Information Technology (ICAIT). IEEE, 2024. pp. 1–6.
27. Heemskerk I., Kuiper E., Meijer J. Interactive whiteboard and virtual learning environment combined: Effects on mathematics education. Journal of Computer Assisted Learning. 2014. vol. 30. no. 5. pp. 465–478.
28. Mundargi Z., Das S., Shinde A., Deokar O., Bahirat S., Shetiya D. Hand gesture desktop control with python. 2nd International Conference on Advances in Computation, Communication and Information Technology (ICAICCIT). IEEE, 2024. vol. 1. pp. 35–40.
29. Nguyen H.A., Tran T.T., Ho H.Q., Ngo T.D., Vu K.N., Huynh V.L.T. Hand gesture recognition using cvzone. Proceedings of the 9th International Conference on Intelligent Information Technology. 2024. pp. 108–113.
30. Uke S., Shaikh A., Rayate H., Kamble A., Rahane S. Towards touchless interaction: Implementing hand gesture recognition for presentation and media control. International Conference on Emerging Smart Computing and Informatics (ESCI). IEEE, 2025. pp. 1–6. DOI: 10.1109/ESCI63694.2025.10988099.
31. Vasanthagokul S., Kamakshi K.V.G., Mudbhari G., Chithrakumar T. Virtual mouse to enhance user experience and increase accessibility. 4th International Conference on Inventive Research in Computing Applications (ICIRCA). IEEE, 2022. pp. 1266–1271.
32. Naidu P., Muthukumaran N., Chandralekha S., Reddy K.T., Vaishnavi K.S. An analysis on virtual mouse control using human eye. 5th International Conference on Image Processing and Capsule Networks (ICIPCN). IEEE, 2024. pp. 233–237.
33. Praba B.V., Vinothini R., Jayarathna M., Subramani K., Sravanthi P. Virtual AI mouse with biometric authentication. International Conference on Knowledge Engineering and Communication Systems (ICKECS). IEEE, 2024. vol. 1. pp. 1–5. DOI: 10.1109/ICKECS61492.2024.10617264.
34. Karthick S., Dinesh M., Jeffery Dani Raj C., Jayapandian N. Artificial intelligence based enhanced virtual mouse hand gesture tracking using yolo algorithm. IEEE 2nd International Conference on Data, Decision and Systems (ICDDS). IEEE, 2023. pp. 1–6. DOI: 10.1109/ICDDS59137.2023.10434330.
35. Karpov A., Ronzhin A., Kipyatkova I. An assistive Bi-modal user interface integrating multi-channel speech recognition and computer vision. Human-Computer Interaction: Interaction Techniques and Environments (HCI 2011). Lecture Notes in Computer Science. 2011. vol. 6762. pp. 454–463. DOI: 10.1007/978-3-642-21605-3_50.
36. Karpov A., Carbini S., Ronzhin A., Viallet J.E. Comparison of two different similar speech and gestures multimodal interfaces. Proc. of the 16th European Signal Processing Conference (EUSIPCO). 2008. pp. 1–5.
37. Jaimes A., Sebe N. Multimodal human–computer interaction: A survey. Computer Vision and Image Understanding. 2007. vol. 108. no. 1–2. pp. 116–134.
38. Bazarevsky V., Zhang F. On-device, real-time hand tracking with mediapipe. Available at: https://research.google/blog/on-device-real-time-hand-tracking-with-mediapipe/ (accessed 15.01.2026).
39. Manning C.D., Raghavan P., Scutze H. Introduction to Information Retrieval. Cambridge University Press, 2008.
40. Sokolova M., Lapalme G. A systematic analysis of performance measures for classification tasks. Information Processing & Management. 2009. vol. 45. no. 4. pp. 427–437.
41. Powers D.M.W. Evaluation: From precision, recall and f-measure to roc, informedness, markedness & correlation. Journal of Machine Learning Technologies. 2011. vol. 2. no. 1. pp. 37–63.

Просмотры	147
Скачивания	118

Искусственный интеллект, инженерия данных и знаний

CLVM: гибридная модель глубокого обучения для бесконтактного управления виртуальной мышью

DOI:

Ключевые слова:

Аннотация

Литература

Опубликован

Статистика

Как цитировать

Выпуск

Раздел

Импакт-фактор

Разделы

Мы в сети

Обратная связь