Модель для обнаружения дипфейков с учетом пространственно-временных и поведенческих признаков на основе объединения XceptionCapsule
Ключевые слова:
обнаружение дипфейков, XceptionCapsule Net, Face Mesh, BlazeFace, извлечение лицевых ориентиров, видеокриминалистикаАннотация
Обнаружение дипфейков по-прежнему представляет собой серьезную проблему, главным образом из-за ключевых ограничений существующих методов, включая зависимость от анализа отдельных кадров, уязвимость к видео низкого разрешения или сжатым видео, а также неспособность улавливать временные несоответствия. Кроме того, традиционные методы обнаружения лиц часто дают сбой в сложных условиях, таких как плохое освещение или окклюзия, а многие модели не справляются с тонкими манипуляциями из-за неадекватного извлечения признаков и переобучения на ограниченных наборах данных. Для устранения недостатков существующих подходов к обнаружению дипфейков в данном исследовании предлагается система обнаружения лиц и движений, которая объединяет как пространственную, так и временную информацию. Работа системы начинается с этапа предварительной обработки, на котором видеокадры извлекаются с фиксированной частотой для обеспечения временной согласованности. Области лица и детальные ориентиры точно определяются с помощью BlazeFace и MediaPipe Face Mesh. Затем эти признаки обрабатываются с помощью предлагаемой сети XceptionCapsule Net, которая сочетает в себе возможности извлечения пространственных признаков модели Xception с иерархическим и учитывающим ракурс представлением капсульных сетей (CapsNet), а также возможностью моделирования временных зависимостей двунаправленного слоя долгой краткосрочной памяти (BiLSTM). Архитектура включает в себя глобальный усредняющий пулинг, сглаживание и полносвязные слои с сигмоидной функцией активации для бинарной классификации. Обширные оценки на наборах данных FaceForensics++ (FF++) и Celeb-DF демонстрируют высокую производительность, достигая точности до 99,31% и площади под кривой (AUC) 99,99%. Результаты подтверждают эффективность, точность и обобщающую способность системы для видео различного качества и сценариев манипуляций.
Литература
2. Fola-Rose A., Solomon E., Bryant K., Woubie A. A Systematic Review of Facial Recognition Methods: Advancements, Applications, and Ethical Dilemmas. IEEE International Conference on Information Reuse and Integration for Data Science (IRI). 2024. pp. 314–319.
3. EL Fadel N. Facial Recognition Algorithms: A Systematic Literature Review. Journal of Imaging. 2025. vol. 11(2).
4. Wu Y. Facial Recognition Technology: College Students’ Perspectives in the US. Trends in Sociology. 2024. vol. 2(2). pp. 56–69. DOI: 10.61187/ts.v2i2.119.
5. Dang M., NguyenT.N. Digital face manipulation creation and detection: A systematic review. Electronics. 2023. vol. 12(16).
6. Masood M., Nawaz M., Malik K.M., Javed A., Irtaza A., Malik H. Deepfakes generation and detection: State-of-the-art, open challenges, countermeasures, and way forward. Applied intelligence. 2023. vol. 53(4). pp. 3974–4026.
7. Akkem Y., Biswas S.K., Varanasi A. A comprehensive review of synthetic data generation in smart farming by using variational autoencoder and generative adversarial network. Engineering Applications of Artificial Intelligence. 2024. vol. 131.
8. Alqahtani H., Kavakli-Thorne M., Kumar G. Applications of generative adversarial networks (gans): An updated review. Archives of Computational Methods in Engineering. 2021. vol. 28. pp. 525–552.
9. Sun X., Chen S., Yao T., Liu H., Ding S., Ji R. Diffusionfake: Enhancing generalization in deepfake detection via guided stable diffusion. Advances in Neural Information Processing Systems. 2024. vol. 37. pp. 101474–101497.
10. Ge Y., Xu J., Zhao B.N., Joshi N., Itti L., Vineet V. Dall-e for detection: Language-driven compositional image synthesis for object detection. arXiv preprint arXiv:2206.09592. 2022.
11. Zhao H., Liang T., Davari S., Kim D. Synthesizing Reality: Leveraging the Generative AI-Powered Platform Midjourney for Construction Worker Detection. arXiv preprint arXiv:2507.13221. 2025.
12. Zhou K.Z., Choudhry A., Gumusel E., Sanfilippo M.R. Sora is Incredible and Scary": Emerging Governance Challenges of Text-to-Video Generative AI Models. arXiv preprint arXiv:2406.11859. 2024.
13. Qadir A., Mahum R., El-Meligy M.A., Ragab A.E., AlSalman A., Awais M. An efficient deepfake video detection using robust deep learning. Heliyon, 2024. vol. 10(5).
14. Bhattacharyya C., Wang H., Zhang F., Kim S., Zhu X. Diffusion deepfake. arXiv preprint arXiv:2404.01579. 2024.
15. Al-Khazraji S.H., Saleh H.H., Khalid A.I., Mishkhal I.A. Impact of deepfake technology on social media: Detection, misinformation and societal implications. The Eurasia Proceedings of Science Technology Engineering and Mathematics. 2023. vol. 23. pp. 429–441.
16. Jbara W.A., Hussein N.A.H.K., Soud J.H. Deepfake Detection in Video and Audio Clips: A Comprehensive Survey and Analysis. Mesopotamian Journal of CyberSecurity. 2024. vol. 4(3). pp. 233–250.
17. Arya M., Goyal U., Chawla S. A Study on Deep Fake Face Detection Techniques. 3rd International Conference on Applied Artificial Intelligence and Computing (ICAAIC). IEEE, 2024. pp. 459–466.
18. Rajeev A., Raviraj P. An insightful analysis of digital forensics effects on networks and multimedia applications. SN Computer Science. 2023. vol. 4(2).
19. Sheremet O.I., Sadovoi O.V., Harshanov D.V., Kovalchuk S., Sheremet K.S., Sokhina Y.V. Efficient face detection and replacement in the creation of simple fake videos. Applied Aspects of Information Technology. 2023. vol. 6(3). pp. 286–303.
20. Wang J., Yuan S., Lu T., Zhao H., Zhao Y. Video-based real-time monitoring of engagement in E-learning using MediaPipe through multi-feature analysis. Expert Systems with Applications. 2025. vol. 288. DOI: 10.1016/j.eswa.2025.128239.
21. Chollet F. Xception: Deep learning with depthwise separable convolutions, in: Proceedings of the IEEE conference on computer vision and pattern recognition. 2017. pp. 1251–1258.
22. Joshi D., Kashyap A., Arora P. CapsNet-Based Deep Learning Approach for Robust Image Forgery Detection. 10th International Conference on Signal Processing and Communication (ICSC). IEEE, 2025. pp. 308–314.
23. Alanazi F., Ushaw G., Morgan G. Improving detection of deepfakes through facial region analysis in images. Electronics. 2024. vol. 13(1). DOI: 10.3390/electronics13010126.
24. Hasanaath A.A., Luqman H., Katib R., Anwar S. FSBI: Deepfake detection with frequency enhanced self-blended images. Image and Vision Computing. 2025. vol. 154.
25. Qadir A., Mahum R., El-Meligy M.A., Ragab A.E., AlSalman A., Awais M. An efficient deepfake video detection using robust deep learning. Heliyon, 2024. vol. 10(5).
26. Xiong D., Wen Z., Zhang C., Ren D., Li W. BMNet: Enhancing Deepfake Detection through BiLSTM and Multi-Head Self-Attention Mechanism. IEEE Access. 2025. vol. 13. pp. 21547–21556. DOI: 10.1109/ACCESS.2025.3533653.
27. Naskar G., Mohiuddin S., Malakar S., Cuevas E., Sarkar R. Deepfake detection using deep feature stacking and meta-learning. Heliyon. 2024. vol. 10(4).
28. Al Redhaei A., Fraihat S., Al-Betar M.A. A self-supervised BEiT model with a novel hierarchical patchReducer for efficient facial deepfake detection. Artificial Intelligence Review. 2025. vol. 58(9).
29. Ilyas H., Javed A., Malik K.M. ConvNext-PNet: An interpretable and explainable deep-learning model for deepfakes detection. IEEE International Joint Conference on Biometrics (IJCB). 2024. pp. 1–9.
30. Deressa D.W., Lambert P., Van Wallendael G., Atnafu S., Mareen H. Improved Deepfake Video Detection Using Convolutional Vision Transformer. IEEE Gaming, Entertainment, and Media Conference (GEM). 2024. pp. 1–6.
31. Gong R., He R., Zhang, D., Sangaiah A.K., Alenazi M.J. Robust face forgery detection integrating local texture and global texture information. EURASIP Journal on Information Security. 2025(1). vol. 3.
32. Saikia P., Dholaria D., Yadav P., Patel V., Roy M. A hybrid CNN-LSTM model for video deepfake detection by leveraging optical flow features. International joint conference on neural networks (IJCNN). IEEE, 2022. pp. 1–7.
33. Rossler A., Cozzolino D., Verdoliva L., Riess C., Thies J., et al., Faceforensics: A Large-Scale Video Dataset for Forgery Detection in Human Faces. arXiv preprint arXiv:1803.09179. 2018.
34. Li Y., Yang X., Sun P., Qi H., Lyu S. Celeb-df: A largescale challenging dataset for deepfake forensics. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020. pp. 3207–3216.
35. Akbar A.F., Ayu P.D.W., Hostiadi D.P. Performance Analysis of Deep Learning Architectures in Classifying Fake and Real Images. JUITA: Jurnal Informatika. 2025. pp. 167–176.
36. Khan S.B., Gupta M., Gopinathan B., Thyluru RamaKrishna M., Saraee M., Mashat A., Almusharraf A. DeepFake Detection: Evaluating the Performance of EfficientNetV2‐B2 on Real vs. Fake Image Classification. IET Image Processing. 2025. vol. 19(1).
Опубликован
Как цитировать
Раздел
Copyright (c) Unknown, Unknown

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).