Способы оценивания систем аудиолокализации выступающих в зале совещаний
Ключевые слова:
аудиолокализация, определение речевой активности, интеллектуаль-ное пространство, автоматизация протоколирования мероприятийАннотация
Применение методов аудиолокализации позволяет оценить положение и направление головы говорящего в помещении. Подобные системы в настоящее время популярны при разработке интеллектуальных систем сопровождения мероприятий в залах совещаний. В работе проанализирован ряд методик для оценивания производи-тельности систем аудиолокализации, а также их интеграции с системами видеомонито-ринга. На примере разработанного интеллектуального зала совещаний проведена оценка точности аудиолокализации выступающих, находящихся в 32 креслахЛитература
Ан.Л. Ронжин, А.А. Карпов Проектирование интерактивных приложений с много-модальным интерфейсом // Доклады ТУСУРа. –2010. –№ 1 (21), часть 1. – С. 124-127
А.А. Карпов, И.А. Кагиров Формализация лексикона системы компьютерного синтеза языка жестов // Труды СПИИРАН. СПб.: Наука, Вып. 16, 2011, С. 123-140
Rozgic, V., Busso, C., Georgiou, P.G., and Narayanan, S.S Multimodal meeting moni-toring: Improvements on speaker tracking and segmentation through a modified mixture parti-cle filter // IEEE International Workshop on Multimedia Signal Processing (MMSP), 2007, pp.60-65
Omologo, M., Svaizer, P.G, Brutti, A., Cristoforetti, L Speaker Localization in CHIL Lectures: Evaluation Criteria and Results // Machine Learning for Multimodal Interaction. Berlin: Springer, 2006, pp.476–487
Brutti, A., Omologo, M. and Svaizer, P Comparison between different sound source localization techniques based on a real data collection // Hands-Free Speech Communication and Microphone Arrays (HSCMA), Trento, Italy, May 2008
Benesty, J., Sondhi, M., and Huang, Y Handbook of Speech Processing // Spring-er, 2008
Zhang, C., Yin, P., Rui, Y., Cutler, R., Viola, P., Sun, X., Pinto, N., and Zhang, Z Boost-ing-Based Multimodal Speaker Detection for Distributed Meeting Videos // IEEE Transactions on Multimedia, Vol.10, No.8, 2008, pp.1541-1552
DiBiase, J., Silverman, H., and Brandstein, M Robust Localization in Reverberant Rooms // ser. Microphone arrays-Signal Processing Techniques and Applications. Berlin, Germany: Springer-Verlag, ch. 8, 2001, pp.157–180
Macho D., Nadeu C., Temko A Macho D., Nadeu C., Temko A
Omologo M., Svaizer P., Brutti A., Cristoforetti L Speaker localization in CHIL lectures: Evaluation criteria and results. Springer Berlin/Heidelberg, Steve Renals and Samy Bengio (Eds.): MLMI 2005: Revised and selected papers, Edinburgh, UK, July 11-13 2005, pp. 476-487
Laskowski K., Schultz T Simultaneous multispeaker segmentation for automatic meeting recognition. In Proc. of EUSIPCO, Poznan, Poland, September 2007, pp. 1294–1298
Мещеряков Р.В Система оценки качества передаваемой речи // Докла-ды ТУСУР, 2010. - N2(22) - С.324-329
Косарев, Ю.А., Ли, И.В., Ронжин, А.Л., Скиданов, Е.А., Savage J Обзор методов понимания речи и текста, Труды СПИИРАН / Под ред. Р.М. Юсупова вып. 1 т. 2 – СПб.: «Анатолия», 2002, C. 157-195
Nishiura T., Yamada T., Nakamura S., Shikano K Localization of multiple sound sources based on a CSP analysis with a microphone array. In Proceedings of IEEE Internation-al Conference on Acoustics, Speech and Signal Processing, volume 2, Instanbul, Turkey, June 5-9 2000, pp. 1053-1056
Champagne B., Bedard S., Stephenne A Performance of time-delay estimation in the presence of room reverberation // IEEE Transactions on Speech and Audio Processing, March 1996, Vol. 4, Issue 2, pp. 148-152
Stiefelhagen R., Garofolo J Multimodal Technologies for Perception of Humans. First International Evaluation Workshop on Classification of Events, Activities and Relation-ships, CLEAR 2006 // Lecture Notes in Computer Science, Vol. 4122, Springer-Verlag, 2007
Abad A., Segura C., Nadeu C., Hernando J Audio-based approaches to head orientation estimation in a smart-room // In Proc. of Interspeech’2007, August 27-31, Antwerp, Belgium, pp. 590-593
Ганбат, Д., Ронжин, А.Л., Найдандорж, Р., Будков, В.Ю., Прищепа, М.В Разработ-ка веб-системы для предоставления обучающих сервисов удаленным мобильным поль-зователям // Труды СПИИРАН. Вып. 13, СПб.: Наука, 2010, С. 21-34
Ронжин Ан.Л., Будков В.Ю Технологии поддержки гибридных e-совещаний на основе методов аудиовизуальной обработки // Вестник компьютерных и информацион-ных технологий, № 4, 2011
Ронжин Ан.Л., Будков В.Ю., Ронжин Ал.Л Технологии формирования аудиовизу-ального интерфейса системы телеконференций // Автоматизация и современные техно-логии. № 5. 2011, С. 20-26
Ронжин Ал.Л., Ронжин Ан.Л Система аудиовизуального мониторинга участников совещания в интеллектуальном зале // Доклады ТУСУРа, № 1 (22), часть 1, 2011, С. 147-151
А.А. Карпов, И.А. Кагиров Формализация лексикона системы компьютерного синтеза языка жестов // Труды СПИИРАН. СПб.: Наука, Вып. 16, 2011, С. 123-140
Rozgic, V., Busso, C., Georgiou, P.G., and Narayanan, S.S Multimodal meeting moni-toring: Improvements on speaker tracking and segmentation through a modified mixture parti-cle filter // IEEE International Workshop on Multimedia Signal Processing (MMSP), 2007, pp.60-65
Omologo, M., Svaizer, P.G, Brutti, A., Cristoforetti, L Speaker Localization in CHIL Lectures: Evaluation Criteria and Results // Machine Learning for Multimodal Interaction. Berlin: Springer, 2006, pp.476–487
Brutti, A., Omologo, M. and Svaizer, P Comparison between different sound source localization techniques based on a real data collection // Hands-Free Speech Communication and Microphone Arrays (HSCMA), Trento, Italy, May 2008
Benesty, J., Sondhi, M., and Huang, Y Handbook of Speech Processing // Spring-er, 2008
Zhang, C., Yin, P., Rui, Y., Cutler, R., Viola, P., Sun, X., Pinto, N., and Zhang, Z Boost-ing-Based Multimodal Speaker Detection for Distributed Meeting Videos // IEEE Transactions on Multimedia, Vol.10, No.8, 2008, pp.1541-1552
DiBiase, J., Silverman, H., and Brandstein, M Robust Localization in Reverberant Rooms // ser. Microphone arrays-Signal Processing Techniques and Applications. Berlin, Germany: Springer-Verlag, ch. 8, 2001, pp.157–180
Macho D., Nadeu C., Temko A Macho D., Nadeu C., Temko A
Omologo M., Svaizer P., Brutti A., Cristoforetti L Speaker localization in CHIL lectures: Evaluation criteria and results. Springer Berlin/Heidelberg, Steve Renals and Samy Bengio (Eds.): MLMI 2005: Revised and selected papers, Edinburgh, UK, July 11-13 2005, pp. 476-487
Laskowski K., Schultz T Simultaneous multispeaker segmentation for automatic meeting recognition. In Proc. of EUSIPCO, Poznan, Poland, September 2007, pp. 1294–1298
Мещеряков Р.В Система оценки качества передаваемой речи // Докла-ды ТУСУР, 2010. - N2(22) - С.324-329
Косарев, Ю.А., Ли, И.В., Ронжин, А.Л., Скиданов, Е.А., Savage J Обзор методов понимания речи и текста, Труды СПИИРАН / Под ред. Р.М. Юсупова вып. 1 т. 2 – СПб.: «Анатолия», 2002, C. 157-195
Nishiura T., Yamada T., Nakamura S., Shikano K Localization of multiple sound sources based on a CSP analysis with a microphone array. In Proceedings of IEEE Internation-al Conference on Acoustics, Speech and Signal Processing, volume 2, Instanbul, Turkey, June 5-9 2000, pp. 1053-1056
Champagne B., Bedard S., Stephenne A Performance of time-delay estimation in the presence of room reverberation // IEEE Transactions on Speech and Audio Processing, March 1996, Vol. 4, Issue 2, pp. 148-152
Stiefelhagen R., Garofolo J Multimodal Technologies for Perception of Humans. First International Evaluation Workshop on Classification of Events, Activities and Relation-ships, CLEAR 2006 // Lecture Notes in Computer Science, Vol. 4122, Springer-Verlag, 2007
Abad A., Segura C., Nadeu C., Hernando J Audio-based approaches to head orientation estimation in a smart-room // In Proc. of Interspeech’2007, August 27-31, Antwerp, Belgium, pp. 590-593
Ганбат, Д., Ронжин, А.Л., Найдандорж, Р., Будков, В.Ю., Прищепа, М.В Разработ-ка веб-системы для предоставления обучающих сервисов удаленным мобильным поль-зователям // Труды СПИИРАН. Вып. 13, СПб.: Наука, 2010, С. 21-34
Ронжин Ан.Л., Будков В.Ю Технологии поддержки гибридных e-совещаний на основе методов аудиовизуальной обработки // Вестник компьютерных и информацион-ных технологий, № 4, 2011
Ронжин Ан.Л., Будков В.Ю., Ронжин Ал.Л Технологии формирования аудиовизу-ального интерфейса системы телеконференций // Автоматизация и современные техно-логии. № 5. 2011, С. 20-26
Ронжин Ал.Л., Ронжин Ан.Л Система аудиовизуального мониторинга участников совещания в интеллектуальном зале // Доклады ТУСУРа, № 1 (22), часть 1, 2011, С. 147-151
Опубликован
2011-06-01
Как цитировать
Ронжин, А. Л. (2011). Способы оценивания систем аудиолокализации выступающих в зале совещаний. Труды СПИИРАН, 2(17), 100-113. https://doi.org/10.15622/sp.17.6
Раздел
Статьи
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).