HEVERL – Viewport Estimation Using Reinforcement Learning for 360-degree Video Streaming

Nguyen Viet Hung; Pham Tien Dat; Nguyen Tan; Nguyen Anh Quan; Le Thi Huyen Trang; Le Mai Nam

doi:10.15622/ia.24.1.11

Нгуен Вьет Хунг Восточноазиатский технологический университет
Фам Тянь Дат Восточноазиатский технологический университет
Нгуен Тан Восточноазиатский технологический университет
Нгуен Ань Куан Восточноазиатский технологический университет
Ле Тхи Хуэйен Транг Восточноазиатский технологический университет
Ле Май Нам Восточноазиатский технологический университет

DOI:

https://doi.org/10.15622/ia.24.1.11

Ключевые слова:

движение головы и глаз, обучение с подкреплением, глубокое обучение, машинное обучение, потоковая передача видео, видео на 360 градусов

Аннотация

Видеоконтент в формате 360 градусов стал ключевым компонентом в средах виртуальной реальности, предлагая зрителям захватывающий и увлекательный опыт. Однако потоковая передача такого комплексного видеоконтента сопряжена со значительными трудностями, обусловленными существенными размерами файлов и переменчивыми сетевыми условиями. Для решения этих проблем в качестве перспективного решения, направленного на снижение нагрузки на пропускную способность сети, появилась адаптивная потоковая передача просмотра. Эта технология предполагает передачу видео более низкого качества для периферийных зон просмотра, а высококачественный контент – для конкретной зоны просмотра, на которую активно смотрит пользователь. По сути, это требует точного прогнозирования направления просмотра пользователя и повышения качества этого конкретного сегмента, что подчеркивает значимость адаптивной потоковой передачи просмотра (VAS). Наше исследование углубляется в применение методов пошагового обучения для прогнозирования оценок, требуемых системой VAS. Таким образом, мы стремимся оптимизировать процесс потоковой передачи, обеспечивая высокое качество отображения наиболее важных фрагментов видео. Кроме того, наш подход дополняется тщательным анализом поведения движений головы и лица человека. Используя эти данные, мы разработали модель обучения с подкреплением, специально предназначенную для прогнозирования направлений взгляда пользователя и повышения качества изображения в целевых областях. Эффективность предлагаемого нами метода подтверждается нашими экспериментальными результатами, которые показывают значительные улучшения по сравнению с существующими эталонными методами. В частности, наш подход повышает метрику прецизионности на значения в диапазоне от 0,011 до 0,022. Кроме того, он снижает среднеквадратичную ошибку (RMSE) в диапазоне от 0,008 до 0,013, среднюю абсолютную ошибку (MAE) – от 0,012 до 0,018 и оценку F1 – от 0,017 до 0,028. Кроме того, мы наблюдаем увеличение общей точности с 2,79 до 16,98. Эти улучшения подчеркивают потенциал нашей модели для значительного улучшения качества просмотра в средах виртуальной реальности, делая потоковую передачу видео на 360 градусов более эффективной и удобной для пользователя.

Литература

1. Pan X., Chen X., Zhang Q., Li N. Model predictive control: A rein-forcement learning-based approach. Journal of Physics: Conference Series. IOP Publishing. 2022. vol. 2203. no. 1. DOI: 10.1088/1742-6596/2203/1/012058.
2. Feng X., Swaminathan V., Wei S. Viewport prediction for live 360-degree mobile video streaming using user-content hybrid motion tracking. Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies. 2019. vol. 3. no. 2. pp. 1–22. DOI: 10.1145/3328914.
3. Nguyen H., Dao T.N., Pham N.S., Dang T.L., Nguyen T.D., Truong T.H. An accurate viewport estimation method for 360 video streaming using deep learning. EAI Endorsed Transactions on Industrial Networks and Intelligent Systems. 2022. vol. 9. no. 4. DOI: 10.4108/eetinis.v9i4.2218.
4. Nguyen D. An evaluation of viewport estimation methods in 360-degree video streaming. 7th International Conference on Business and Industrial Research (ICBIR). IEEE, 2022. pp. 161–166. DOI: 10.1109/ICBIR54589.2022.9786513.
5. Nguyen V.H., Pham N.N., Truong C.T., Bui D.T., Nguyen H.T., Truong T.H. Retina-based quality assessment of tile-coded 360-degree videos. EAI Endorsed Transactions on Industrial Networks and Intelligent Systems. 2022. vol. 9. no. 32. DOI: 10.4108/eetinis.v9i32.1058.
6. Lee E.-J., Jang Y.J., Chung M. When and how user comments affect news readers’ personal opinion: perceived public opinion and perceived news position as mediators. Digital Journalism. 2020. vol. 9. no. 1. pp. 42–63. DOI: 10.1080/21670811.2020.1837638.
7. Nguyen H.V., Tan N., Quan N.H., Huong T.T., Phat N.H. Building a chatbot system to analyze opinions of english comments. Informatics and Automation. 2023. vol. 22. no. 2. pp. 289–315.
8. Raja U.S., Carrico A.R. A qualitative exploration of individual experiences of environmental virtual reality through the lens of psychological distance. Environmental Communication. 2021. vol. 15. no. 5. pp. 594–609. DOI: 10.1080/17524032.2020.1871052.
9. Jiang Z., Zhang X., Xu Y., Ma Z., Sun J., Zhang Y. Reinforcement learning based rate adaptation for 360-degree video streaming. IEEE Transactions on Broadcasting. 2021. vol. 67. no. 2. pp. 409–423. DOI: 10.1109/TBC.2020.3028286.
10. Nguyen V.H., Bui D.T., Tran T.L., Truong C.T., Truong T.H. Scalable and resilient 360-degree-video adaptive streaming over http/2against sudden network drops. Computer Communications. 2024. vol. 216. pp. 1–15. DOI: 10.1016/j.comcom.2024.01.001.
11. Kan N., Zou J., Li C., Dai W., Xiong H. Rapt360: Reinforcement learning-based rate adaptation for 360-degree video streaming with adaptive prediction and tiling. IEEE Transactions on Circuits and Systems for Video Technology. 2022. vol. 32. no. 3. pp. 1607–1623. DOI: 10.1109/TCSVT.2021.3076585.
12. Hung N.V., Chien T.D., Ngoc N.P., Truong T.H. Flexible http-based video adaptive streaming for good QoE during sudden bandwidth drops. EAI Endorsed Transactions on Industrial Networks and Intelligent Systems. 2023. vol. 10. no. 2. DOI: 10.4108/eetinis.v10i2.2994.
13. Wong E.S., Wahab N.H.A., Saeed F., Alharbi N. 360-degree video bandwidth reduction: Technique and approaches comprehensive review. Applied Sciences. 2022. vol. 12. no. 15. DOI: 10.3390/app12157581.
14. Lampropoulos G., Barkoukis V., Burden K., Anastasiadis T. 360-degree video in education: An overview and a comparative social media data analysis of the last decade. Smart Learning Environments. 2021. vol. 8. DOI: 10.1186/s40561-021-00165-8.
15. Ng K.-T., Chan S.-C., Shum H.-Y. Data compression and transmission aspects of panoramic videos. IEEE Transactions on Circuits and Systems for Video Technology. 2005. vol. 15. no. 1. pp. 82–95. DOI: 10.1109/TCSVT.2004.839989.
16. Xie L., Xu Z., Ban Y., Zhang X., Guo Z. 360ProbDASH: Improving QoE of 360 video streaming using tile-based http adaptive streaming. Proceedings of the 25th ACM international conference on Multimedia. 2017. pp. 315–323. DOI: 10.1145/3123266.3123291.
17. Hosseini M., Swaminathan V. Adaptive 360 VR video streaming: Divide and conquer. IEEE International Symposium on Multimedia (ISM). IEEE, 2016. pp. 107–110.
18. El-Ganainy T., Hefeeda M. Streaming virtual reality content. arXiv preprint arXiv:1612.08350. 2016. DOI: 10.48550/arXiv.1612.08350.
19. Xu M., Song Y., Wang J., Qiao M., Huo L., Wang Z. Predicting head movement in panoramic video: A deep reinforcement learning approach. IEEE transactions on pattern analysis and machine intelligence. 2019. vol. 41. no. 11. pp. 2693–2708. DOI: 10.1109/TPAMI.2018.2858783.
20. Hu H.-N., Lin Y.-C., Liu M.-Y., Cheng H.-T., Chang Y.-J., Sun M. Deep 360 pilot: Learning a deep agent for piloting through 360deg sports videos. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017. pp. 1396–1405.
21. Bao Y., Wu H., Zhang T., Ramli A.A., Liu X. Shooting a moving target: Motion-prediction-based transmission for 360-degree videos. IEEE International Conference on Big Data. IEEE. 2016. pp. 1161–1170. DOI: 10.1109/BigData.2016.7840720.
22. Petrangeli S., Swaminathan V., Hosseini M., De Turck F. An http/2-based adaptive streaming framework for 360 virtual reality videos. Proceedings of the 25th ACM international conference on Multimedia. 2017. pp. 306–314. DOI: 10.1145/3123266.3123453.
23. Hung N.V., Tien B.D., Anh T.T.T., Nam P.N., Huong T.T. An efficient approach to terminate 360-video stream on http/3. AIP Conference Proceedings. AIP Publishing. 2023. vol. 2909. no. 1.
24. Yu J., Liu Y. Field-of-view prediction in 360-degree videos with attention-based neural encoder-decoder networks. Proceedings of the 11th ACM Workshop on Immersive Mixed and Virtual Environment Systems. 2019. pp. 37–42. DOI: 10.1145/3304113.3326118.
25. Park S., Bhattacharya A., Yang Z., Das S.R., Samaras D. Mosaic: Advancing user quality of experience in 360-degree video streaming with machine learning. IEEE Transactions on Network and Service Management. 2021. vol. 18. no. 1. pp. 1000–1015. DOI: 10.1109/TNSM.2021.3053183.
26. Lee D., Choi M., Lee J. Prediction of head movement in 360-degree videos using attention model. Sensors. 2021. vol. 21. no. 11. DOI: 10.3390/s21113678.
27. Chen X., Kasgari A.T.Z., Saad W. Deep learning for content-based personalized viewport prediction of 360-degree VR videos. IEEE Networking Letters. 2020. vol. 2. no. 2. pp. 81–84. DOI: 10.1109/LNET.2020.2977124.
28. Vielhaben J., Camalan H., Samek W., Wenzel M. Viewport forecasting in 360 virtual reality videos with machine learning. IEEE international conference on artificial intelligence and virtual reality (AIVR). IEEE. 2019. pp. 74–747. DOI: 10.1109/AIVR46125.2019.00020.
29. Uddin M.M., Park J. Machine learning model evaluation for 360°video caching. IEEE World AI IoT Congress (AIIoT). IEEE. 2022. pp. 238–244. DOI: 10.1109/AIIoT54504.2022.9817292.
30. Fan C.-L., Yen S.-C., Huang C.-Y., Hsu C.-H. Optimizing fixation prediction using recurrent neural networks for 360° video streaming in head-mounted virtual reality. IEEE Transactions on Multimedia. 2020. vol. 22. no. 3. pp. 744–759. DOI: 10.1109/TMM.2019.2931807.
31. Yaqoob A., Bi T., Muntean G.-M. A survey on adaptive 360 video streaming: Solutions, challenges and opportunities. IEEE Communications Surveys & Tutorials. 2020. vol. 22. no. 4. pp. 2801–2838. DOI: 10.1109/COMST.2020.3006999.
32. Liu X. Deng Y. Learning-based prediction, rendering and association optimization for mec-enabled wireless virtual reality (VR) networks. IEEE Transactions on Wireless Communications. 2021. vol. 20. no. 10. pp. 6356–6370. DOI: 10.1109/TWC.2021.3073623.
33. Gadaleta M., Chiariotti F., Rossi M., Zanella A. D-DASH: A deep q-learning framework for dash video streaming. IEEE Transactions on Cognitive Communications and Networking. 2017. vol. 3. no. 4. pp. 703–718. DOI: 10.1109/TCCN.2017.2755007.
34. Souane N., Bourenane M., Douga Y. Deep reinforcement learning-based approach for video streaming: Dynamic adaptive video streaming over HTTP. Applied Sciences. 2023. vol. 13. no. 21. DOI: 10.3390/app132111697.
35. Xie Y., Zhang Y., Lin T. Deep curriculum reinforcement learning for adaptive 360 ◦ video streaming with two-stage training. IEEE Transactions on Broadcasting. 2023. vol. 70. no. 2. pp. 441–452. DOI: 10.1109/tbc.2023.3334137.
36. Du L., Zhuo L., Li J., Zhang J., Li X., Zhang H. Video quality of experience metric for dynamic adaptive streaming services using dash standard and deep spatial-temporal representation of video. Applied Sciences. 2020. vol. 10. no. 5. DOI: 10.3390/app10051793.
37. Mao H., Chen S., Dimmery D., Singh S., Blaisdell D., Tian Y., Alizadeh M., Bakshy E. Real-world video adaptation with reinforcement learning. arXiv preprint arXiv:2008.12858. 2020. DOI: 10.48550/arXiv.2008.12858.
38. David E.J., Gutiérrez J., Coutrot A., Da Silva M.P., Callet P.L. A dataset of head and eye movements for 360 videos. Proceedings of the 9th ACM Multimedia Systems Conference. 2018. pp. 432–437.
39. Wu C., Zhang R., Wang Z., Sun L. A spherical convolution approach for learning long term viewport prediction in 360 immersive video. Proceedings of the AAAI Conference on Artificial Intelligence. 2020. vol. 34. no. 01. pp. 14003–14040. DOI: 10.1609/aaai.v34i01.7377.

Просмотры	445
Скачивания	231

Искусственный интеллект, инженерия данных и знаний

Оценка области просмотра с использованием обучения с подкреплением для потоковой передачи видео в формате 360 градусов

DOI:

Ключевые слова:

Аннотация

Литература

Опубликован

Статистика

Как цитировать

Выпуск

Раздел

Импакт-фактор

Разделы

Мы в сети

Обратная связь