Многомодальные ассистивные системы для интеллектуального жилого пространства.
Ключевые слова:
системы видеонаблюдения, сегментация переднего фона, слежение за ключевыми точками, обработка аудиосигнала, распознавание речи, определение акустических событийАннотация
В статье представлен обзор систем, применяемых для ассистивного интеллектуального пространства. Также описывается разработанная многомодальная ассистивная система для интеллектуального жилого пространства, которая состоит из двух комплексов средств. Первый комплекс выполняет обработку видеопотоков для определения положения пользователя и слежения за его перемещением, а также анализа его действий. Ко второму комплексу относится система обработки аудиопотоков, предназначенная для автоматического распознавания речевых команд и акустических событий. Разработанная система автоматического распознавания речи многоязычна и позволяет распознавать слова, произнесенные на английском или русском. В процессе проведения экспериментов было записано 2811 аудиофайлов, содержащих речь и акустические события, средняя точность распознавания составила 96,5% и 93,8% соответственно.Литература
Alemdar H. and Ersoy C. A Survey on Wireless Sensor Technologies for Health-care. Computer Networks, 2010.
Koch S. and HÄagglund M. Health informatics and the delivery of care to older people. Maturitas, May 2009.
Sneha S. and Varshney U. Enabling ubiquitous patient monitoring: Model, decision protocols, opportunities and challenges. Decision Support Systems, vol. 46, February 2009. pp. 606-619.
QuietCare Systems https://www.quietcaresystems.com
Philips LifeLine http://www.lifelinesys.com/content/lifelineproducts/classic-pendant.jsp
Intel Health Guide http://www.intel.com/healthcare/ps/healthguide/index.htm
Wood A.,Stankovic J., Virone G., Selavo L., Zhimin H., Qiuhua C., Thao D., Yafeng W., Lei F., and Stoleru R. Context-aware wireless sensor networks for assisted living and residential monitoring, Network, IEEE, vol. 22, no.4, 2008. pp. 26-33.
Huiyu Z., Hu H. Human motion tracking for rehabilitation--A survey. In Biomedical Signal Processing and Control, Volume 3, Issue 1, January 2008. pages 1-18
Iso-Ketola P., Karinsalo T., and Vanhala J. HipGuard: A wearable measurement system for patients recovering from a hip operation, in Second International Conference on Pervasive Computing Technologies for Healthcare, 2008. pp. 196-199.
Virone G., Wood A. D., Selavo L., Cao Q., Fang L., Doan T., He Z., and Stankovic J. A. An Advanced Wireless Sensor Network for Health Monitoring, in Transdisciplinary Conference on Distributed Diagnosis and Home Healthcare (D2H2), Arlington, VA, 2006
Alemdar, H. Ö., Yavuz, G. R., Özen, M. O., Kara, Y. E., Incel, Ö. D., Akarun, L., & Ersoy, C. Multi-modal fall detection within the WeCare framework. Proceedings of the 9th ACM/IEEE International Conference on Information Processing in Sensor Networks – IPSN’10. 2010. pp. 436-437.
Nakashima, H., Aghajan, H., Augusto, J. C., Nakashima, H., & Aghajan, H. Handbook of Ambient Intelligence and Smart Environments. (H. Nakashima, H. Aghajan, & J. C. Augusto, Eds.). Boston, MA: Springer Verlag. 2009.
Papadopoulos, A., Crump, C., & Wilson, B. Comprehensive home monitoring system for the elderly. Wireless Health 2010 on - WH’10 2010. pp. 214-215.
Kara, Y. E., & Akarun, L. Human action recognition in videos using keypoint tracking. IEEE 19th Signal Processing and Communications Applications Conference (SIU) 2011. pp 1129-1132.
Poppe, R., Elsevier B.V. A survey on vision-based human action recognition. Image and Vision Computing, 28(6), 2010. pp.976-990.
Weinland, D., Ronfard, R., & Boyer, E. A survey of vision-based methods for action representation, segmentation and recognition. Computer Vision and Image Understanding, 115(2), 2011. pp.224-241.
KaewTraKulPong, P., & Bowden, R. An improved adaptive background mixture model for real-time tracking with shadow detection. Proc. European Workshop Advanced, 1(3), 2001. pp.1-5.
Zivkovic, Z., & van der Heijden, F. Efficient adaptive density estimation per image pixel for the task of background subtraction. Pattern Recognition Letters, 27(7), 2006. pp.773-780.
Kim, K., Chalidabhongse, T., Harwood, D., & Davis, L. Real-time foreground– background segmentation using codebook model. Real-Time Imaging, 11(3), 2005. pp.172-185.
Tuytelaars, T., & Mikolajczyk, K. Local Invariant Feature Detectors: A Survey. Foundations and Trends in Computer Graphics and Vision, 3(3), 2007. pp.177-280.
Кипяткова И. С., Карпов А. А. Эксперименты по распознаванию слитной русской речи с использованием сверхбольшого словаря // Труды СПИИРАН. Вып. 12, СПб.: Наука, 2010, С. 63-74.
Temko A., Malkin R., Zieger C., Macho D., Nadeu C. Acoustic event detection and classification in smart-room environments: Evaluation of child project systems // IV Jornadasen Tecnología del Habla, Zaragoza, Nov. 2006, pp. 5-11
Wang D., Brown G. Computational Auditory Scene Analysis: Principles, Algorithms and Applications, Wiley-IEEE Press, 2006
Temko A., Nadeu C. Acoustic event detection in meeting-room environments // Pattern Recognition Letters. Vol. 30. 2009. pp. 1281-1288
Vacher, M, Istrate, D., Besacier, L., Castelli, E., Serignat, J. Smart audio sensor for telemedicine. In: Proc. Smart Object Conference 2003. pp.15-17
Stäger, M., Lukowicz, P., Perera, N., Büren, T., Tröster, G., Starner, T. Sound button: Design of a low power wearable audio classification system. In: Proc. IEEE Int. Symp. On Wearable Computers, 2003. pp. 12–17
Jianfeng, C., Jianmin, Z., Kam, A., Shue, L. An automatic acoustic bathroom monitoring system. In: Proc. IEEE Int. Symp. On Circuits and Systems 2005. 2. pp.1750-1753.
Ронжин А.Л., Карпов А.А. Проектирование интерактивных приложений с многомодальным интерфейсом // Доклады ТУСУРа, № 1 (21), часть 1, 2010, С. 124-127.
Ronzhin A.L., Karpov A.A. Russian Voice Interface // MAIK Nauka/Interperiodica: Pattern Recognition and Image Analysis, 2007, Vol. 17, No. 2, pp. 321–336.
Rosten, E., & Drummond, T. Machine learning for high-speed corner detection. Computer Vision–ECCV 2006, 2006. 430–443.
Calonder, M., Lepetit, V., & Fua, P. BRIEF: Binary Robust Independent Elementary Features. (K. Daniilidis, P. Maragos, & N. Paragios, Eds.)Computer Vision – ECCV 2010. pp. 778-792
Rabiner, L., & Juang, B. Speech Recognition. In J. Benesty, M. M. Sondhi, & Y. Huang (Eds.), Springer Handbook of Speech Processing. Springer New York. 2008.
Кипяткова И.С., Карпов А.А. Автоматическая обработка и статистический анализ новостного текстового корпуса для модели языка системы распознавания русской речи // Информационно-управляющие системы. – СПб: СПбГУАП, № 4(47), 2010, С. 2-8.
Ронжин Ал.Л. Способы оценивания систем аудиолокализации, выступающих в зале совещаний // Труды СПИИРАН. №2, Вып. 17, СПб.: Наука, 2011, С. 101-113.
Koch S. and HÄagglund M. Health informatics and the delivery of care to older people. Maturitas, May 2009.
Sneha S. and Varshney U. Enabling ubiquitous patient monitoring: Model, decision protocols, opportunities and challenges. Decision Support Systems, vol. 46, February 2009. pp. 606-619.
QuietCare Systems https://www.quietcaresystems.com
Philips LifeLine http://www.lifelinesys.com/content/lifelineproducts/classic-pendant.jsp
Intel Health Guide http://www.intel.com/healthcare/ps/healthguide/index.htm
Wood A.,Stankovic J., Virone G., Selavo L., Zhimin H., Qiuhua C., Thao D., Yafeng W., Lei F., and Stoleru R. Context-aware wireless sensor networks for assisted living and residential monitoring, Network, IEEE, vol. 22, no.4, 2008. pp. 26-33.
Huiyu Z., Hu H. Human motion tracking for rehabilitation--A survey. In Biomedical Signal Processing and Control, Volume 3, Issue 1, January 2008. pages 1-18
Iso-Ketola P., Karinsalo T., and Vanhala J. HipGuard: A wearable measurement system for patients recovering from a hip operation, in Second International Conference on Pervasive Computing Technologies for Healthcare, 2008. pp. 196-199.
Virone G., Wood A. D., Selavo L., Cao Q., Fang L., Doan T., He Z., and Stankovic J. A. An Advanced Wireless Sensor Network for Health Monitoring, in Transdisciplinary Conference on Distributed Diagnosis and Home Healthcare (D2H2), Arlington, VA, 2006
Alemdar, H. Ö., Yavuz, G. R., Özen, M. O., Kara, Y. E., Incel, Ö. D., Akarun, L., & Ersoy, C. Multi-modal fall detection within the WeCare framework. Proceedings of the 9th ACM/IEEE International Conference on Information Processing in Sensor Networks – IPSN’10. 2010. pp. 436-437.
Nakashima, H., Aghajan, H., Augusto, J. C., Nakashima, H., & Aghajan, H. Handbook of Ambient Intelligence and Smart Environments. (H. Nakashima, H. Aghajan, & J. C. Augusto, Eds.). Boston, MA: Springer Verlag. 2009.
Papadopoulos, A., Crump, C., & Wilson, B. Comprehensive home monitoring system for the elderly. Wireless Health 2010 on - WH’10 2010. pp. 214-215.
Kara, Y. E., & Akarun, L. Human action recognition in videos using keypoint tracking. IEEE 19th Signal Processing and Communications Applications Conference (SIU) 2011. pp 1129-1132.
Poppe, R., Elsevier B.V. A survey on vision-based human action recognition. Image and Vision Computing, 28(6), 2010. pp.976-990.
Weinland, D., Ronfard, R., & Boyer, E. A survey of vision-based methods for action representation, segmentation and recognition. Computer Vision and Image Understanding, 115(2), 2011. pp.224-241.
KaewTraKulPong, P., & Bowden, R. An improved adaptive background mixture model for real-time tracking with shadow detection. Proc. European Workshop Advanced, 1(3), 2001. pp.1-5.
Zivkovic, Z., & van der Heijden, F. Efficient adaptive density estimation per image pixel for the task of background subtraction. Pattern Recognition Letters, 27(7), 2006. pp.773-780.
Kim, K., Chalidabhongse, T., Harwood, D., & Davis, L. Real-time foreground– background segmentation using codebook model. Real-Time Imaging, 11(3), 2005. pp.172-185.
Tuytelaars, T., & Mikolajczyk, K. Local Invariant Feature Detectors: A Survey. Foundations and Trends in Computer Graphics and Vision, 3(3), 2007. pp.177-280.
Кипяткова И. С., Карпов А. А. Эксперименты по распознаванию слитной русской речи с использованием сверхбольшого словаря // Труды СПИИРАН. Вып. 12, СПб.: Наука, 2010, С. 63-74.
Temko A., Malkin R., Zieger C., Macho D., Nadeu C. Acoustic event detection and classification in smart-room environments: Evaluation of child project systems // IV Jornadasen Tecnología del Habla, Zaragoza, Nov. 2006, pp. 5-11
Wang D., Brown G. Computational Auditory Scene Analysis: Principles, Algorithms and Applications, Wiley-IEEE Press, 2006
Temko A., Nadeu C. Acoustic event detection in meeting-room environments // Pattern Recognition Letters. Vol. 30. 2009. pp. 1281-1288
Vacher, M, Istrate, D., Besacier, L., Castelli, E., Serignat, J. Smart audio sensor for telemedicine. In: Proc. Smart Object Conference 2003. pp.15-17
Stäger, M., Lukowicz, P., Perera, N., Büren, T., Tröster, G., Starner, T. Sound button: Design of a low power wearable audio classification system. In: Proc. IEEE Int. Symp. On Wearable Computers, 2003. pp. 12–17
Jianfeng, C., Jianmin, Z., Kam, A., Shue, L. An automatic acoustic bathroom monitoring system. In: Proc. IEEE Int. Symp. On Circuits and Systems 2005. 2. pp.1750-1753.
Ронжин А.Л., Карпов А.А. Проектирование интерактивных приложений с многомодальным интерфейсом // Доклады ТУСУРа, № 1 (21), часть 1, 2010, С. 124-127.
Ronzhin A.L., Karpov A.A. Russian Voice Interface // MAIK Nauka/Interperiodica: Pattern Recognition and Image Analysis, 2007, Vol. 17, No. 2, pp. 321–336.
Rosten, E., & Drummond, T. Machine learning for high-speed corner detection. Computer Vision–ECCV 2006, 2006. 430–443.
Calonder, M., Lepetit, V., & Fua, P. BRIEF: Binary Robust Independent Elementary Features. (K. Daniilidis, P. Maragos, & N. Paragios, Eds.)Computer Vision – ECCV 2010. pp. 778-792
Rabiner, L., & Juang, B. Speech Recognition. In J. Benesty, M. M. Sondhi, & Y. Huang (Eds.), Springer Handbook of Speech Processing. Springer New York. 2008.
Кипяткова И.С., Карпов А.А. Автоматическая обработка и статистический анализ новостного текстового корпуса для модели языка системы распознавания русской речи // Информационно-управляющие системы. – СПб: СПбГУАП, № 4(47), 2010, С. 2-8.
Ронжин Ал.Л. Способы оценивания систем аудиолокализации, выступающих в зале совещаний // Труды СПИИРАН. №2, Вып. 17, СПб.: Наука, 2011, С. 101-113.
Опубликован
2011-12-01
Как цитировать
Карпов, А. А., Лале, А., & Ронжин, А. Л. (2011). Многомодальные ассистивные системы для интеллектуального жилого пространства. Труды СПИИРАН, 4(19), 48-64. https://doi.org/10.15622/sp.19.3
Раздел
Статьи
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).