Разработка многомодального информационного киоска
Аннотация
Статья представляет результаты исследования и разработки аппаратной части исследовательского стенда информационно-справочной системы с многомодальным интерфейсом пользователя ("многомодальный информационный киоск"). Стенд объединяет стандартные средства ввода/вывода информации (сенсорный экран, клавиатуру и стерео динамики) и устройства, обеспечивающие бесконтактное взаимодействие (видеокамера, микрофоны). Для дистанционного распознавания русско-язычных голосовых команд применяется массив микрофонов, позволяющий локализовать источник полезного сигнала и понизить влияние акустических шумов. Миниатюрная видеокамера обеспечивает оптическое отслеживание положения пользователя в рабочей зоне киоска. Разработанный прототип киоска будет использован для создания модели информационно-справочной системы и исследования когнитивных аспектов взаимодействия пользователя с системой, учитывая различные способы коммуникации.Литература
Bolt R. A. Put–that–there: voice and gesture at the graphics interface // Computer Graphics. 1980. Vol. 14, no. 3. P. 262–270.
Andrew D., Avery C. L., Avery B. L. Digital smart kiosk project // Proc. of the SIGCHI conference on human factors in computing systems. 1998. P. 155–162.
McCauley L., D’Mello S. MIKI: a speech enabled intelligent kiosk. // Intelligent virtual agents. Lecture Notes in computer science. 2006. Vol. 4133. P. 132–144.
Andrew D., Avery C. L., Avery B. L. Speak out and annoy someone: experiences with intelligent kiosks // Proc. of the SIGCHI conference on human factors in computing systems. 2000. P. 313–320.
Kleek M. V., Kottahachchi B., Horton T., Cavallaro P., Shrobe H. Designing speech interfaces for public kiosks // Student oxygen workshop. 2004.
Алдошина И. Основы биоакустики. Бинауральный слух // Звукорежиссер. 1999. Т. 10.
ГОСТ Р ИСО 9241-3-2003 Эргономические требования при выполнении офисных работ с использование видеодисплейных терминалов (ВДТ). Часть 3. Требования к визуальному отображению информации.
Слюсар В. Smart-антенны пошли в серию // Электроника: наука, технология, бизнес. 2004. Т. 4. С. 62 -65.
Veen B. D. V., Bukley K. M. Beamforming: a versatile approa h to spatial filtering // IEEE ASSP Magazine. 1988. P. 4-24.
Herbordt W., Kellermann W. Adaptive beamforming for audio signal acquisition // Adaptive signal processing: application to real-world problems. Springer, Berlin, 2003. P. 155-194.
Серебряков Г.В. Эффективность коммуникационных адаптивных антенных решеток с различной геометрией // Актуальные проблемы статистической радиофизики. 2002. Т. 1, № 1. C. 95-101.
Hoshuyama O., Sugiyama A., Hirano A. A robust adaptive beamformer for microphone arrays with a blocking matrix using constrained adaptive filters // IEEE Transactions on signal processing. 1999. Vol. 47, no. 19. P. 2677-2684.
Zhang M. Adaptive beamforming by microphone arrays // Proc. of global telecommunications conference GLOBECOM '95. 1995. Vol. 1. P. 163–167.
Карпов А.А. ICanDo: интеллектуальный помощник для пользователей с ограниченными физическими возможностями //Вестник компьютеных и информационных технологий. 2007. № 7. ISSN 1810 - 7206. С. 32 - 41.
MPEG4 talking heads,.
Tekalp A. M., Ostermann J. Face and 2-D mesh animation in MPEG-4. Signal processing: image communication // Special issue on MPEG-4. 2000. Vol. 15. P. 387–421.
Cosatto E., Graf H. P. Photo-realistic talking-heads from image samples // IEEE Transactions on multimedia. 2000. Vol. 2. P. 152-163.
ISO 9241-9:2000(E) Ergonomic requirements for office work with visual display terminals (VDTs). Part 9: requirements for non-keyboard input devices. International standards organization. 2000.
Soukoreff R. W, MacKenzie I. S. Towards a standard for pointing device evaluation, perspectives on 27 years of Fitts' law research in HCI // International journal of human-computer studies. 2004. Vol. 61. Issue 6. P. 751-789.
Andrew D., Avery C. L., Avery B. L. Digital smart kiosk project // Proc. of the SIGCHI conference on human factors in computing systems. 1998. P. 155–162.
McCauley L., D’Mello S. MIKI: a speech enabled intelligent kiosk. // Intelligent virtual agents. Lecture Notes in computer science. 2006. Vol. 4133. P. 132–144.
Andrew D., Avery C. L., Avery B. L. Speak out and annoy someone: experiences with intelligent kiosks // Proc. of the SIGCHI conference on human factors in computing systems. 2000. P. 313–320.
Kleek M. V., Kottahachchi B., Horton T., Cavallaro P., Shrobe H. Designing speech interfaces for public kiosks // Student oxygen workshop. 2004.
Алдошина И. Основы биоакустики. Бинауральный слух // Звукорежиссер. 1999. Т. 10.
ГОСТ Р ИСО 9241-3-2003 Эргономические требования при выполнении офисных работ с использование видеодисплейных терминалов (ВДТ). Часть 3. Требования к визуальному отображению информации.
Слюсар В. Smart-антенны пошли в серию // Электроника: наука, технология, бизнес. 2004. Т. 4. С. 62 -65.
Veen B. D. V., Bukley K. M. Beamforming: a versatile approa h to spatial filtering // IEEE ASSP Magazine. 1988. P. 4-24.
Herbordt W., Kellermann W. Adaptive beamforming for audio signal acquisition // Adaptive signal processing: application to real-world problems. Springer, Berlin, 2003. P. 155-194.
Серебряков Г.В. Эффективность коммуникационных адаптивных антенных решеток с различной геометрией // Актуальные проблемы статистической радиофизики. 2002. Т. 1, № 1. C. 95-101.
Hoshuyama O., Sugiyama A., Hirano A. A robust adaptive beamformer for microphone arrays with a blocking matrix using constrained adaptive filters // IEEE Transactions on signal processing. 1999. Vol. 47, no. 19. P. 2677-2684.
Zhang M. Adaptive beamforming by microphone arrays // Proc. of global telecommunications conference GLOBECOM '95. 1995. Vol. 1. P. 163–167.
Карпов А.А. ICanDo: интеллектуальный помощник для пользователей с ограниченными физическими возможностями //Вестник компьютеных и информационных технологий. 2007. № 7. ISSN 1810 - 7206. С. 32 - 41.
MPEG4 talking heads,
Tekalp A. M., Ostermann J. Face and 2-D mesh animation in MPEG-4. Signal processing: image communication // Special issue on MPEG-4. 2000. Vol. 15. P. 387–421.
Cosatto E., Graf H. P. Photo-realistic talking-heads from image samples // IEEE Transactions on multimedia. 2000. Vol. 2. P. 152-163.
ISO 9241-9:2000(E) Ergonomic requirements for office work with visual display terminals (VDTs). Part 9: requirements for non-keyboard input devices. International standards organization. 2000.
Soukoreff R. W, MacKenzie I. S. Towards a standard for pointing device evaluation, perspectives on 27 years of Fitts' law research in HCI // International journal of human-computer studies. 2004. Vol. 61. Issue 6. P. 751-789.
Опубликован
2007-10-01
Как цитировать
Ронжин, Карпов, Леонтьева, & Костюченко,. (2007). Разработка многомодального информационного киоска. Труды СПИИРАН, (5), 227-245. https://doi.org/10.15622/sp.5.12
Выпуск
Раздел
Статьи
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).