Алгоритмы и программные средства автоматического определения речевых сбоев в звуковом сигнале
Ключевые слова:
речевые сбои, речевой корпус, автоматическая обработка речи, автоматическое распознавание речиАннотация
При автоматической обработке спонтанной речи возникает ряд трудностей, таких как вариативность речи или присутствие речевых сбоев различной природы. В статье рассматриваются различные виды речевых сбоев и причины их возникновения, а также представлен алгоритм их автоматического определения, основанный на анализе акустических параметров. Для выделения звонких хезитационных явлений использовался кросскорреляционный метод, а для выделения глухих хезитационных явлений – метод полосовой спектральной фильтрации. Эксперименты проводились на специально собранном корпусе спонтанной русской речи, состоящем из диалогов по описанию маршрута по карте и нахождению общего свободного времени по расписанию. Проведенные эксперименты показали, что звонкие хезитационные явления выделяются с точностью 80%, глухие хезитационные явления и дыхание - с точностью 66%.Литература
Верходанова В.О., Карпов А.А. Моделирование речевых сбоев в системах автоматического распознавания речи // Вестн. Том. гос. ун-та. 2012. № 363. С. 10–15
Земская Е.А. Русская разговорная речь: лингвистический анализ и проблемы обучения. М.: Русский язык, 1987
Кипяткова И.С., Верходанова В.О., Ронжин А.Л. Сегментация паралингвистических фонационных явлений в спонтанной русской речи // Вестник Пермского университета. Российская и зарубежная филология, Вып. 2 (18), 2012. C. 17-23
Кривнова О. Ф., Чардин И. С. Паузирование в естественной и синтезированной речи // Теория и практика речевых исследований (АРСО-99). Материалы конференции — М., 1999
Лауринавичюте А.К., Федорова О.В. Влияние паузы хезитации на понимание синтаксической структуры предложения носителями русского языка // Материалы международной конференции «Диалог 2010». Бекасово, 2010. С. 279–284
Подлесская В.И., Кибрик А.А. Самоисправления говорящего и другие типы речевых сбоев как объект аннотирования в корпусах устной речи // Научно-техническая информация. Сер. 2. 2007. № 2. С. 2–23
Степанова С. Б. Общее и индивидуальное в хезитациях (на материале русской спонтанной речи) // Материалы XXXV международной филологической конференции. Фонетика. Санкт-Петербург, 2006. С. 24-32
Adams M.R. Fluency, nonfluency, and stuttering in children // Journal of Fluency Disorders, Vol. 7, 1982. P. 171-185
Anderson A., Bader M., Bard E., Boyle E., Doherty G. M., Garrod S., Isard S., Kowtko J., McAllister J., Miller J., Sotillo C., Thompson H. S. and Weinert R. The HCRC Map Task Corpus // Language and Speech, 34, 1991. P. 351-366
Blankenship J., Kay C. Hesitation phenomena in English speech: A study in distribution. // Word, Vol. 20, 1964. P. 360-372
Clark H.H., Fox Tree J.E. Using uh and um in spontaneous speaking // Cognition, Vol. 84 (1), 2002. P. 73–111
Corley M., Stewart O. W. Hesitation disfluencies in spontaneous speech: The meaning of um // Language and Linguistics Compass, Vol. 4, 2008. P. 589-602
Fox B. A., Hayashi M., Jasperson R. Resources and repair: a cross-linguistic study of syntax and repair // Interaction and grammar. Cambridge University Press, 1996. P.185-237
Giannini A. Hesitation Phenomena In Spontaneous Italian // In Proceedings of the 15-th International Congress of Phonetic Sciences, Barcelona, 2003. P. 2653-2656
Howell P., Davis S., Bartrip J. The UCLASS archive of stuttered speech. // Journal of Speech, Language, and Hearing Research, Vol. 52, 2009. P. 556–569
Kaushik M., Trinkle M., Hashemi-Sakhtsari A. Automatic Detection and Removal of Disfluencies from Spontaneous Speech // In Proceedings of the 13-th Australasian International Conference on Speech Science and Technology (SST). Melbourne, Australia, 2010. P. 98–101
Karpov A., Markov K., Kipyatkova I., Vazhenina D., Ronzhin A. Large vocabulary Russian speech recognition using syntactico-statistical language modeling // Speech Communication, Vol. 56, 2013. P. 213–228
Kohler K.J. Labelled data bank of spoken standard German: the Kiel corpus of read/spontaneous speech // In Proceedings of 4-th International Conference on Spoken Language (ICSLP 96), Vol.3, 1996. P. 1938-1941
Lease M., JohnsonM., Charniak E. Recognizing disfluencies in conversational speech // IEEE Transactions on Audio, Speech, and Language Processing, Vol. 14(5), 2006. P. 1566–1573
Levelt W.J.M. Monitoring and self-repair in speech // Cognition, Vol. 14, 1983. P. 41-104
Levelt W.J.M. Speaking: From Intention to Articulation // The MIT Press, 1993. 584 p.
Liu Y. Structural Event Detection for Rich Transcription of Speech // PhD thesis. Berkeley: Purdue University and ICSI, 2004. 253 p.
Liu Y., Shriberg E., Stolcke A. et al. Enriching Speech Recognition with Automatic Detection of Sentence Boundaries and Disfluencies // IEEE Transactions on Audio, Speech and Language Processing, № 14(5), 2006. P. 1526–1540
Masataka G., Katunobu I., Satoru H. A real-time filled pause detection system for spontaneous speech Recognition // In Proceedings of the 6th European Conference on Speech Communication and Technology (Eurospeech '99). Budapest, Hungary, 1999. P. 227–230
Nakatani C.H., Hirschberg J. A corpus-based study of repair cues in spontaneous speech // Journal of the Acoustical Society of America, Vol. 95 (3), 1994. P. 1603-1616
O’Shaughnessy D. Locating disfluencies in spontaneous speech: an acoustical analysis // In Proceedings of European Conference On Acoustics and Speech Communication and Technology. S.1., 1992. P. 2187-2190
Pätzold M., Simpson A. P. An acoustic analysis of hesitation particles in German // In Proceedings of 13-th International Congress of Phonetic Sciences, Vol. 3, 1995. P. 512-515
Pálfy J., Pospíchal J. Algorithms for Dysfluency Detection in Symbolic Sequences using Suffix Arrays // Text, Speech, and Dialogue. Lecture Notes in Computer Science, Vol. 8082, 2013. P. 76-83
29. Proceedings of DiSS’03, Disfluency in Spontaneous Speech Workshop // Gothenburg Papers in Theoretical Linguistics 90, Sweden, Göteborg University, 200P. 3–4
Shriberg E.E. Preliminaries to a Theory of Speech Disfluencies // PhD thesis, University of California at Berkeley, 1994. 225 p.
Skrelin P., Volskaya N., Kocharov D. et al. A Fully Annotated Corpus of Russian Speech // In Proceedings of the 7-th Conference on International Language Resources and Evaluation (LREC'10), Valletta, Malta, 2010. P. 109–112
Snover M., Dorr B., Schwartz R. A lexically-driven algorithm for disfluency detection // In Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics (HLT-NAACL-Short '04), Boston, Massachusetts, USA, 2004. P. 157–160
33. SWITCHBOARD: A User's Manual. URL: http://www.ldc.upenn.edu/Catalog/readme_files/switchboard.readme.html (дата обращения: 05.09.2013)
Verkhodanova V., Shapranov V. Automatic Detection of Speech Disfluencies in the Spontaneous Russian Speech // Springer International Publishing Switzerland. M. Zelezny et al. (Eds.): SPECOM 2013, LNAI 8113, 2013. P. 70-77
Земская Е.А. Русская разговорная речь: лингвистический анализ и проблемы обучения. М.: Русский язык, 1987
Кипяткова И.С., Верходанова В.О., Ронжин А.Л. Сегментация паралингвистических фонационных явлений в спонтанной русской речи // Вестник Пермского университета. Российская и зарубежная филология, Вып. 2 (18), 2012. C. 17-23
Кривнова О. Ф., Чардин И. С. Паузирование в естественной и синтезированной речи // Теория и практика речевых исследований (АРСО-99). Материалы конференции — М., 1999
Лауринавичюте А.К., Федорова О.В. Влияние паузы хезитации на понимание синтаксической структуры предложения носителями русского языка // Материалы международной конференции «Диалог 2010». Бекасово, 2010. С. 279–284
Подлесская В.И., Кибрик А.А. Самоисправления говорящего и другие типы речевых сбоев как объект аннотирования в корпусах устной речи // Научно-техническая информация. Сер. 2. 2007. № 2. С. 2–23
Степанова С. Б. Общее и индивидуальное в хезитациях (на материале русской спонтанной речи) // Материалы XXXV международной филологической конференции. Фонетика. Санкт-Петербург, 2006. С. 24-32
Adams M.R. Fluency, nonfluency, and stuttering in children // Journal of Fluency Disorders, Vol. 7, 1982. P. 171-185
Anderson A., Bader M., Bard E., Boyle E., Doherty G. M., Garrod S., Isard S., Kowtko J., McAllister J., Miller J., Sotillo C., Thompson H. S. and Weinert R. The HCRC Map Task Corpus // Language and Speech, 34, 1991. P. 351-366
Blankenship J., Kay C. Hesitation phenomena in English speech: A study in distribution. // Word, Vol. 20, 1964. P. 360-372
Clark H.H., Fox Tree J.E. Using uh and um in spontaneous speaking // Cognition, Vol. 84 (1), 2002. P. 73–111
Corley M., Stewart O. W. Hesitation disfluencies in spontaneous speech: The meaning of um // Language and Linguistics Compass, Vol. 4, 2008. P. 589-602
Fox B. A., Hayashi M., Jasperson R. Resources and repair: a cross-linguistic study of syntax and repair // Interaction and grammar. Cambridge University Press, 1996. P.185-237
Giannini A. Hesitation Phenomena In Spontaneous Italian // In Proceedings of the 15-th International Congress of Phonetic Sciences, Barcelona, 2003. P. 2653-2656
Howell P., Davis S., Bartrip J. The UCLASS archive of stuttered speech. // Journal of Speech, Language, and Hearing Research, Vol. 52, 2009. P. 556–569
Kaushik M., Trinkle M., Hashemi-Sakhtsari A. Automatic Detection and Removal of Disfluencies from Spontaneous Speech // In Proceedings of the 13-th Australasian International Conference on Speech Science and Technology (SST). Melbourne, Australia, 2010. P. 98–101
Karpov A., Markov K., Kipyatkova I., Vazhenina D., Ronzhin A. Large vocabulary Russian speech recognition using syntactico-statistical language modeling // Speech Communication, Vol. 56, 2013. P. 213–228
Kohler K.J. Labelled data bank of spoken standard German: the Kiel corpus of read/spontaneous speech // In Proceedings of 4-th International Conference on Spoken Language (ICSLP 96), Vol.3, 1996. P. 1938-1941
Lease M., JohnsonM., Charniak E. Recognizing disfluencies in conversational speech // IEEE Transactions on Audio, Speech, and Language Processing, Vol. 14(5), 2006. P. 1566–1573
Levelt W.J.M. Monitoring and self-repair in speech // Cognition, Vol. 14, 1983. P. 41-104
Levelt W.J.M. Speaking: From Intention to Articulation // The MIT Press, 1993. 584 p.
Liu Y. Structural Event Detection for Rich Transcription of Speech // PhD thesis. Berkeley: Purdue University and ICSI, 2004. 253 p.
Liu Y., Shriberg E., Stolcke A. et al. Enriching Speech Recognition with Automatic Detection of Sentence Boundaries and Disfluencies // IEEE Transactions on Audio, Speech and Language Processing, № 14(5), 2006. P. 1526–1540
Masataka G., Katunobu I., Satoru H. A real-time filled pause detection system for spontaneous speech Recognition // In Proceedings of the 6th European Conference on Speech Communication and Technology (Eurospeech '99). Budapest, Hungary, 1999. P. 227–230
Nakatani C.H., Hirschberg J. A corpus-based study of repair cues in spontaneous speech // Journal of the Acoustical Society of America, Vol. 95 (3), 1994. P. 1603-1616
O’Shaughnessy D. Locating disfluencies in spontaneous speech: an acoustical analysis // In Proceedings of European Conference On Acoustics and Speech Communication and Technology. S.1., 1992. P. 2187-2190
Pätzold M., Simpson A. P. An acoustic analysis of hesitation particles in German // In Proceedings of 13-th International Congress of Phonetic Sciences, Vol. 3, 1995. P. 512-515
Pálfy J., Pospíchal J. Algorithms for Dysfluency Detection in Symbolic Sequences using Suffix Arrays // Text, Speech, and Dialogue. Lecture Notes in Computer Science, Vol. 8082, 2013. P. 76-83
29. Proceedings of DiSS’03, Disfluency in Spontaneous Speech Workshop // Gothenburg Papers in Theoretical Linguistics 90, Sweden, Göteborg University, 200P. 3–4
Shriberg E.E. Preliminaries to a Theory of Speech Disfluencies // PhD thesis, University of California at Berkeley, 1994. 225 p.
Skrelin P., Volskaya N., Kocharov D. et al. A Fully Annotated Corpus of Russian Speech // In Proceedings of the 7-th Conference on International Language Resources and Evaluation (LREC'10), Valletta, Malta, 2010. P. 109–112
Snover M., Dorr B., Schwartz R. A lexically-driven algorithm for disfluency detection // In Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics (HLT-NAACL-Short '04), Boston, Massachusetts, USA, 2004. P. 157–160
33. SWITCHBOARD: A User's Manual. URL: http://www.ldc.upenn.edu/Catalog/readme_files/switchboard.readme.html (дата обращения: 05.09.2013)
Verkhodanova V., Shapranov V. Automatic Detection of Speech Disfluencies in the Spontaneous Russian Speech // Springer International Publishing Switzerland. M. Zelezny et al. (Eds.): SPECOM 2013, LNAI 8113, 2013. P. 70-77
Опубликован
2014-04-02
Как цитировать
Верходанова, В. О. (2014). Алгоритмы и программные средства автоматического определения речевых сбоев в звуковом сигнале. Труды СПИИРАН, 8(31), 43-60. https://doi.org/10.15622/sp.31.3
Раздел
Статьи
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).