Анализ перспектив применения высокоскоростных камер для распознавания динамической видеоинформации
Ключевые слова:
высокоскоростная видеокамера, компьютерное зрение, аудиовизуальное распознавание речи, аудиовизуальная база данных, чтение по губам, динамическая видеоинформацияАннотация
Рассматриваются актуальные и перспективные направления по использованию высокоскоростных видеокамер. Обсуждается возможность применения высокоскоростных камер в области человеко-машинного взаимодействия для автоматического распознавания динамической видеоинформации (в том числе визуальной речи диктора). Выделяются основные задачи взаимодействия, решаемые с помощью высокоскоростных камер, такие как: автоматическое чтение речи по губам диктора, обнаружение моргания, распознавание микровыражений. Обозначаются возможные проблемы, связанные с внедрением высокоскоростных видеокамер. Анализируется состояние области исследований на настоящий момент и доказывается, что имеется высокая актуальность развития данного научно-технического направления. Предлагаются многообещающие области применения и задачи организации человеко-машинного взаимодействия с применением высокоскоростной видеосъемки. Основными направлениями являются аудиовизуальное распознавание слитной речи и чтение речи по губам диктора. В ходе дальнейших исследований планируется реализация подобной многомодальной системы аудиовизуального распознавания речи для русского языка с использованием микрофона и высокоскоростной видеокамеры JAI Pulnix.Литература
1. Kwon K., Shipley R.J., Edirisinghe M., Ezra D.G., Rose G., Best S.M., Cameron R.E. High-speed camera characterization of voluntary eye blinking kinematics // Journal of the Royal Society Interface. 2013. vol. 10. no. 85.pp. 86–91.
2. Ohzeki K. Video analysis for detecting eye blinking using a high-speed camera // Proc. 40th Asilomar Conference on Signals, Systems and Computers (ACSSC). USA. 2006. Part. 1. pp. 1081–1085.
3. Bettadapura V. Face expression recognition and analysis: the state of the art // Tech. Report. College of Computing. USA, Georgia Institute of Technology. 2012. pp. 1‒27.
4. Polykovsky S., Kameda Y., Ohta Y. Facial micro-expressions recognition using high speed camera and 3D-gradient descriptor // Proc. 3rd International Conference on Crime Detection and Prevention (ICDP). Japan. 2009. pp. 1‒6.
5. McGurk H., MacDonald J. Hearing lips and seeing voices // Nature. 1976. vol. 264. no. 5588. pp. 746–748.
6. Chitu A.G., Rothkrantz L.J.M. The Influence of Video Sampling Rate on Lipreading Performance // Proc. International Conference on Speech and Computer SPECOM 2007. Russia. 2007. pp. 678–684.
7. Chitu A.G., Driel K., Rothkrantz L.J.M. Automatic lip reading in the Dutch language using active appearance models on high speed recordings // Text, Speech and Dialogue. Springer. 2010. LNCS 6231. pp. 259–266.
8. Chitu A.G., Rothkrantz L.J.M. On dual view lipreading using high speed camera // Proc. 14th Annual Scientific Conference Euromedia. Belgium. 2008. pp. 43–51.
9. Biswas A., Sahu P.K., Bhowmick A., Chandra M. AAM based features for multiple camera visual speech recognition in car environment // Proc. 3rd International Conference on Recent Trends in Computing. 2015.vol. 57. pp. 614‒621.
10. Chitu A.G., Rothkrantz L.J.M. Dutch multimodal corpus for speech recognition // Proc. LREC 2008 Workshop on Multimodal Corpora. Morocco. 2008. pp. 56–59.
11. Potamianos G., Graf H.P., Cosatto E. An image transform approach for HMM based automatic lipreding // Proc. IEEE International Conference on Image Processing. USA. 1998. vol. 3. pp. 173‒177.
12. Karpov A., Ronzhin A., Kipyatkova I. Designing a Multimodal Corpus of Audio-Visual Speech using a High-Speed Camera // Proc. 11th IEEE International Conference on Signal Processing. China. 2012. pp. 519–522.
13. Karpov A., Kipyatkova I., Zelezny M. A framework for recording audio-visual speech corpora with a microphone and a high-speed camera // Proc. International Conference on Speech and Computer SPECOM 2014. Serbia. 2014. vol. 8773. pp. 50–57.
14. Карпов А.А. Реализация автоматической системы многомодального распознавания речи по аудио- и видеоинформации // АвтоматикаиТелемеханика. 2014. Т. 75. № 12. С. 125‒138.
15. Басов О.О., Карпов А.А. Анализ стратегий и методов объединения многомодальной информации // Информационно-управляющие системы. СПб.: ГУАП.№ 2. 2015. С. 18‒30.
16. Karpov A., Ronzhin A. A Universal Assistive Technology with Multimodal Input and Multimedia Output Interfaces // Universal Access in Human-Computer Interaction. Heidelberg: Springer. 2014. vol. 8513. pp. 369‒378.
2. Ohzeki K. Video analysis for detecting eye blinking using a high-speed camera // Proc. 40th Asilomar Conference on Signals, Systems and Computers (ACSSC). USA. 2006. Part. 1. pp. 1081–1085.
3. Bettadapura V. Face expression recognition and analysis: the state of the art // Tech. Report. College of Computing. USA, Georgia Institute of Technology. 2012. pp. 1‒27.
4. Polykovsky S., Kameda Y., Ohta Y. Facial micro-expressions recognition using high speed camera and 3D-gradient descriptor // Proc. 3rd International Conference on Crime Detection and Prevention (ICDP). Japan. 2009. pp. 1‒6.
5. McGurk H., MacDonald J. Hearing lips and seeing voices // Nature. 1976. vol. 264. no. 5588. pp. 746–748.
6. Chitu A.G., Rothkrantz L.J.M. The Influence of Video Sampling Rate on Lipreading Performance // Proc. International Conference on Speech and Computer SPECOM 2007. Russia. 2007. pp. 678–684.
7. Chitu A.G., Driel K., Rothkrantz L.J.M. Automatic lip reading in the Dutch language using active appearance models on high speed recordings // Text, Speech and Dialogue. Springer. 2010. LNCS 6231. pp. 259–266.
8. Chitu A.G., Rothkrantz L.J.M. On dual view lipreading using high speed camera // Proc. 14th Annual Scientific Conference Euromedia. Belgium. 2008. pp. 43–51.
9. Biswas A., Sahu P.K., Bhowmick A., Chandra M. AAM based features for multiple camera visual speech recognition in car environment // Proc. 3rd International Conference on Recent Trends in Computing. 2015.vol. 57. pp. 614‒621.
10. Chitu A.G., Rothkrantz L.J.M. Dutch multimodal corpus for speech recognition // Proc. LREC 2008 Workshop on Multimodal Corpora. Morocco. 2008. pp. 56–59.
11. Potamianos G., Graf H.P., Cosatto E. An image transform approach for HMM based automatic lipreding // Proc. IEEE International Conference on Image Processing. USA. 1998. vol. 3. pp. 173‒177.
12. Karpov A., Ronzhin A., Kipyatkova I. Designing a Multimodal Corpus of Audio-Visual Speech using a High-Speed Camera // Proc. 11th IEEE International Conference on Signal Processing. China. 2012. pp. 519–522.
13. Karpov A., Kipyatkova I., Zelezny M. A framework for recording audio-visual speech corpora with a microphone and a high-speed camera // Proc. International Conference on Speech and Computer SPECOM 2014. Serbia. 2014. vol. 8773. pp. 50–57.
14. Карпов А.А. Реализация автоматической системы многомодального распознавания речи по аудио- и видеоинформации // АвтоматикаиТелемеханика. 2014. Т. 75. № 12. С. 125‒138.
15. Басов О.О., Карпов А.А. Анализ стратегий и методов объединения многомодальной информации // Информационно-управляющие системы. СПб.: ГУАП.№ 2. 2015. С. 18‒30.
16. Karpov A., Ronzhin A. A Universal Assistive Technology with Multimodal Input and Multimedia Output Interfaces // Universal Access in Human-Computer Interaction. Heidelberg: Springer. 2014. vol. 8513. pp. 369‒378.
Опубликован
2016-02-15
Как цитировать
Иванько, Д. В., & Карпов, А. А. (2016). Анализ перспектив применения высокоскоростных камер для распознавания динамической видеоинформации. Труды СПИИРАН, 1(44), 98-113. https://doi.org/10.15622/sp.44.7
Раздел
Методы управления и обработки информации
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).