Обнаружение дипфейков по-прежнему представляет собой серьезную проблему, главным образом из-за ключевых ограничений существующих методов, включая зависимость от анализа отдельных кадров, уязвимость к видео низкого разрешения или сжатым видео, а также неспособность улавливать временные несоответствия. Кроме того, традиционные методы обнаружения лиц часто дают сбой в сложных условиях, таких как плохое освещение или окклюзия, а многие модели не справляются с тонкими манипуляциями из-за неадекватного извлечения признаков и переобучения на ограниченных наборах данных. Для устранения недостатков существующих подходов к обнаружению дипфейков в данном исследовании предлагается система обнаружения лиц и движений, которая объединяет как пространственную, так и временную информацию. Работа системы начинается с этапа предварительной обработки, на котором видеокадры извлекаются с фиксированной частотой для обеспечения временной согласованности. Области лица и детальные ориентиры точно определяются с помощью BlazeFace и MediaPipe Face Mesh. Затем эти признаки обрабатываются с помощью предлагаемой сети XceptionCapsule Net, которая сочетает в себе возможности извлечения пространственных признаков модели Xception с иерархическим и учитывающим ракурс представлением капсульных сетей (CapsNet), а также возможностью моделирования временных зависимостей двунаправленного слоя долгой краткосрочной памяти (BiLSTM). Архитектура включает в себя глобальный усредняющий пулинг, сглаживание и полносвязные слои с сигмоидной функцией активации для бинарной классификации. Обширные оценки на наборах данных FaceForensics++ (FF++) и Celeb-DF демонстрируют высокую производительность, достигая точности до 99,31% и площади под кривой (AUC) 99,99%. Результаты подтверждают эффективность, точность и обобщающую способность системы для видео различного качества и сценариев манипуляций.
1 - 1 из 1 результатов