Сегментация и дифонное распознавание речевых сигналов
Ключевые слова:
сегментация речевого сигнала, дифон, DTW-распознаваниеАннотация
Статья посвящена описанию разработанной в Институте проблем искусственного интеллекта НАН и МОН Украины (Донецк) технологии распознавания речи, основанной на следующих основных этапах обработки: сегментация с использованием численного аналога полной вариации; создание дифонной базы; DTW-распознавание слов по эталонам, автоматически создаваемым из эталонов дифонов. Разработанная технология применима к распознаванию сверхбольших словарей, а также при разработке текстовых редакторов с голосовым вводом.Литература
Вишнякова О.А., Лавров Д.Н. Автоматическая сегментация речевого сигнала на базе дискретного вейвлет-преобразования // Математические структуры и моделирование. 2011, вып. 23. С. 43–48
Жиляков Е.Г., Белов С.П., Белов А.С., Фирсова А.А., Глушак А.В. Об эффективности различных подходов к сегментации речевых сигналов на основе обнаружения пауз // Научные ведомости Белгородского гос. ун-та. Серия История,…,Информатика, №7 (78), Выпуск14/1, 2010. С. 187-193
Кипяткова И.С., Карпов А.А. Эксперименты по распознаванию слитной русской речи с использованием сверхбольшого словаря // Труды СПИИРАН, Вып. 12, 2010. С. 63–74
Конев А.А. Модель и алгоритмы анализа и сегментации речевого сигнала: Кандидатская диссертация. Самара, 2007 г. 150 с.
Мещеряков Р.В., Понизов А.Г. Оценка качества слуха на основе мобильных вычислительных устройств // Труды СПИИРАН, Вып. 18, 2011. С. 93–107
Ручай А.Н. Модифицированный метод сегментации речевого сигнала на основе непрерывного вейвлет-преобразования // Доклады ТУСУРа,№ 2 (26), часть 1, декабрь 2012. С. 189-192
Утробин В.А., Гай В.Е. Алгоритм выделения вокализованных участков речевого сигнала // Вестник Нижегородского университета им. Н.И. Лобачевского, 2012, № 6 (1). С. 175–179
Цыплихин А.И. Анализ и автоматическая сегментация речевого сигнала: Кандидатская диссертация. Москва, 2006 г. 149 с.
Cherniz A., Torres M., Rufiner H., Esposito A. Multiresolution Analysis applied to Text-Independent Phone Segmentation // Journal of Physics: Conference Series. 2007. Vol. 90, 012083
Greibus M., Telksnys L. Rule Based Speech Signal Segmentation // Journal of telecommunications and information technology, 4/2010. P. 37-43
Heck M. Segmentation of telephone speech based on speech and non-speech models // Specom, 2013
Hosom, J. P. Automatic Phoneme Alignment Based on Acoustic-Phonetic Modeling // 2002 International Conference on Spoken Language Processing (ICSLP 2002), Boulder, Co., vol. I, Sep. 2002. P. 357-360
Petrushin V.A. Adaptive Algorithms for Pitch-synchronous Speech Signal Segmentation // SPECOM’2004: 9th Conference, 2004
Rasanen O.J. Speech Segmentation and Clustering Methods for a New Speech Recognition Architecture // Master’s thesis, Helsinki University of Technology, Laboratory of Acoustics and Audio Signal Processing, http://lib.tkk.fi/Dipl/2007/urn010123.pdf, 2007
Regine A.O. A new statistical approach for the automatic segmentation of continuous speech signals // Acoustics, Speech and Signal Processing, IEEE Transactions. (Volume:36 , Issue: 1 ), 1988. P. 29-40
Sarkar A., Sreenivas T.V. Automatic speech segmentation using average level crossing rate information // Proc. ICASSP'05. 2005. Vol. 1. P. 397–400
Шелепов В.Ю., Ниценко А.В. К проблеме распознавания слитной речи // Искусственный интеллект. № 4, 2012. C. 272-281
Шрюфер Е. Обробка сигналів. Київ: Либідь,1992. 295 с.
Шелепов В.Ю., Карабалаева М.Х., Ниценко А.В. Обнаружение и выделение звука [р] в речевом сигнале. // Искусственный интеллект. № 1, 2011. C. 168-174
Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов. Киев: Наук. думка, 1987. 262 с.
Дорохина Г.В. Анализ методов распознавания речевых команд на основе алгоритма DTW // Труды шестого междисциплинарного семинара «Анализ разговорной русской речи», АР3-2012, 27-28 августа 2012, Санкт-Петербург. С. 29-34
Зализняк А.А. Грамматический словарь русского языка. М.: Русский язык, 1977. 879 с.
Федоров Е.Е., Шелепов В.Ю. Защита речевых распознавателей от шума и посторонней речи // Искусственный интеллект. №3, 2001. С. 584-587
Федоров Е.Е., Шелепов В.Ю. Автоматическое определение начала и конца записи речи // Искусственный интеллект. №4, 2002. С. 295-298
Жиляков Е.Г., Белов С.П., Белов А.С., Фирсова А.А., Глушак А.В. Об эффективности различных подходов к сегментации речевых сигналов на основе обнаружения пауз // Научные ведомости Белгородского гос. ун-та. Серия История,…,Информатика, №7 (78), Выпуск14/1, 2010. С. 187-193
Кипяткова И.С., Карпов А.А. Эксперименты по распознаванию слитной русской речи с использованием сверхбольшого словаря // Труды СПИИРАН, Вып. 12, 2010. С. 63–74
Конев А.А. Модель и алгоритмы анализа и сегментации речевого сигнала: Кандидатская диссертация. Самара, 2007 г. 150 с.
Мещеряков Р.В., Понизов А.Г. Оценка качества слуха на основе мобильных вычислительных устройств // Труды СПИИРАН, Вып. 18, 2011. С. 93–107
Ручай А.Н. Модифицированный метод сегментации речевого сигнала на основе непрерывного вейвлет-преобразования // Доклады ТУСУРа,№ 2 (26), часть 1, декабрь 2012. С. 189-192
Утробин В.А., Гай В.Е. Алгоритм выделения вокализованных участков речевого сигнала // Вестник Нижегородского университета им. Н.И. Лобачевского, 2012, № 6 (1). С. 175–179
Цыплихин А.И. Анализ и автоматическая сегментация речевого сигнала: Кандидатская диссертация. Москва, 2006 г. 149 с.
Cherniz A., Torres M., Rufiner H., Esposito A. Multiresolution Analysis applied to Text-Independent Phone Segmentation // Journal of Physics: Conference Series. 2007. Vol. 90, 012083
Greibus M., Telksnys L. Rule Based Speech Signal Segmentation // Journal of telecommunications and information technology, 4/2010. P. 37-43
Heck M. Segmentation of telephone speech based on speech and non-speech models // Specom, 2013
Hosom, J. P. Automatic Phoneme Alignment Based on Acoustic-Phonetic Modeling // 2002 International Conference on Spoken Language Processing (ICSLP 2002), Boulder, Co., vol. I, Sep. 2002. P. 357-360
Petrushin V.A. Adaptive Algorithms for Pitch-synchronous Speech Signal Segmentation // SPECOM’2004: 9th Conference, 2004
Rasanen O.J. Speech Segmentation and Clustering Methods for a New Speech Recognition Architecture // Master’s thesis, Helsinki University of Technology, Laboratory of Acoustics and Audio Signal Processing, http://lib.tkk.fi/Dipl/2007/urn010123.pdf, 2007
Regine A.O. A new statistical approach for the automatic segmentation of continuous speech signals // Acoustics, Speech and Signal Processing, IEEE Transactions. (Volume:36 , Issue: 1 ), 1988. P. 29-40
Sarkar A., Sreenivas T.V. Automatic speech segmentation using average level crossing rate information // Proc. ICASSP'05. 2005. Vol. 1. P. 397–400
Шелепов В.Ю., Ниценко А.В. К проблеме распознавания слитной речи // Искусственный интеллект. № 4, 2012. C. 272-281
Шрюфер Е. Обробка сигналів. Київ: Либідь,1992. 295 с.
Шелепов В.Ю., Карабалаева М.Х., Ниценко А.В. Обнаружение и выделение звука [р] в речевом сигнале. // Искусственный интеллект. № 1, 2011. C. 168-174
Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов. Киев: Наук. думка, 1987. 262 с.
Дорохина Г.В. Анализ методов распознавания речевых команд на основе алгоритма DTW // Труды шестого междисциплинарного семинара «Анализ разговорной русской речи», АР3-2012, 27-28 августа 2012, Санкт-Петербург. С. 29-34
Зализняк А.А. Грамматический словарь русского языка. М.: Русский язык, 1977. 879 с.
Федоров Е.Е., Шелепов В.Ю. Защита речевых распознавателей от шума и посторонней речи // Искусственный интеллект. №3, 2001. С. 584-587
Федоров Е.Е., Шелепов В.Ю. Автоматическое определение начала и конца записи речи // Искусственный интеллект. №4, 2002. С. 295-298
Опубликован
2014-04-02
Как цитировать
Бурибаева, А. К., Дорохина, Г. В., Ниценко, А. В., & Шелепов, В. Ю. (2014). Сегментация и дифонное распознавание речевых сигналов. Труды СПИИРАН, 8(31), 20-42. https://doi.org/10.15622/sp.31.2
Раздел
Статьи
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).