Анализ идентификационных признаков в речевых данных с помощью GMM-UBM системы верификации диктора
Ключевые слова:
распознавание диктора, верификация диктора, Гауссовы смеси, GMM-UBM система, мел-кепстральные коэффициенты, речевые признаки, отбор признаков, обработка речи, генетический алгоритм, жадный алгоритмАннотация
Данная статья посвящена отбору и оценке речевых признаков, используемых в задаче автоматической текстонезависимой верификации диктора. Для решения поставленной задачи была использована система верификации диктора, основанная на модели Гауссовых смесей и универсальной фоновой модели (GMM-UBM система). Рассмотрены область применения и проблемы современных систем автоматической идентификации диктора. Произведен обзор современных методов идентификации диктора, основных речевых признаков, используемых при решении задачи идентификации диктора, а также рассмотрен процесс извлечения признаков, использованных далее. К рассмотренным признакам относятся мел-кепстральные коэффициенты (MFCC), пары линейного спектра (LSP), кепстральные коэффициенты перцептивного линейного предсказания (PLP), кратковременная энергия, формантные частоты, частота основного тона, вероятность вокализации (voicing probability), частота пересечения нуля (ZCR), джиттер и шиммер. Произведена экспериментальная оценка GMM-UBM системы с применением различных наборов речевых признаков на речевом корпусе, включающем в себя записи 50 дикторов. Признаки отобраны с помощью генетического алгоритма и алгоритма жадного добавления-удаления. Используя 256-компонентные Гауссовы смеси и полученный вектор из 28 признаков, была получена равная ошибка 1-го и 2-го рода (EER), составляющая 0,579 %. По сравнению со стандартным вектором, состоящим из 14 мел-кепстральных коэффициентов, ошибка EER была уменьшена на 42,1 %.Литература
1. Сорокин В.Н., Вьюгин В.В., Тананыкин А.А. Распознавание личности по голосу: аналитический обзор // Информационные процессы. 2012. Т. 12. № 1. С. 1–30.
2. Campbell Jr.J.P. Speaker recognition: a tutorial // Proceedings of the IEEE. 1997. vol. 85. no. 9. pp. 1437–1462.
3. Sahidullah M., Saha G. A novel windowing technique for efficient computation of MFCC for speaker recognition // IEEE signal processing letters. 2013. vol. 20. no. 2. pp. 149–152.
4. Motlicek P. et al. Employment of subspace gaussian mixture models in speaker recognition // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2015. pp. 4445–4449.
5. Greenberg C. S. et al. The NIST 2014 speaker recognition i-vector machine learning challenge // Odyssey: The Speaker and Language Recognition Workshop. 2014. pp. 224–230.
6. Lei Y. et al. A novel scheme for speaker recognition using a phonetically-aware deep neural network // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2014. pp. 1695–1699.
7. Shum S.H. et al. Unsupervised clustering approaches for domain adaptation in speaker recognition systems // Odyssey: The Speaker and Language Recognition Workshop. 2014. pp. 265–272.
8. Stafylakis T. et al. Compensation for phonetic nuisance variability in speaker recognition using DNNs // Odyssey: The Speaker and Language Recognition Workshop. 2016. pp. 340–345.
9. Kenny P. et al. Deep neural networks for extracting baum-welch statistics for speaker recognition // Proc. Odyssey. 2014. pp. 293–298.
10. van Leeuwen D.A., Saeidi R. Knowing the non-target speakers: The effect of the i-vector population for PLDA training in speaker recognition // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2013. pp. 6778–6782.
11. Xu L. et al. Rapid Computation of I-vector // Odyssey: The Speaker and Language Recognition Workshop. 2016. pp. 47–52.
12. Ahmad K.S. et al. A unique approach in text independent speaker recognition using MFCC feature sets and probabilistic neural network // Advances in Pattern Recognition (ICAPR). 2015. pp. 1–6.
13. McLaren M., Ferrer L., Lawson A. Exploring the role of phonetic bottleneck features for speaker and language recognition // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2016. pp. 5575–5579.
14. Richardson F., Reynolds D., Dehak N. Deep neural network approaches to speaker and language recognition // IEEE Signal Processing Letters. 2015. vol. 22. no. 10. pp. 1671–1675.
15. Dehak N. et al. Front-end factor analysis for speaker verification // IEEE Transactions on Audio, Speech, and Language Processing. 2011. vol. 19. no. 4. pp. 788–798.
16. Variani E. et al. Deep neural networks for small footprint text-dependent speaker verification // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2014. pp. 4052–4056.
17. Davis S.B., Mermelstein P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences // IEEE Transactions on Acoustics, Speech and Signal Processing. 1980. vol. 28. no. 4. pp. 357–366.
18. Atal B.S. Automatic recognition of speakers from their voices // Proceedings of the IEEE. 1976. vol. 64 no. 4 pp. 460–475.
19. Jurafsky D., Martin J.H. Speech and Language Processing: second edition // Pearson Education. New Jersey. 2009. 950 p.
20. Eyben F., Weninger F., Gross F., Schuller B. Recent developments in opensmile, the munich open-source multimedia feature extractor // Proceedings of the 21st ACM international conference on Multimedia. 2013. pp. 835–838.
21. Reynolds D.A. Gaussian mixture models // Encyclopedia of biometric recognition. Springer. Heidelberg. 2008. vol. 10. Issue 1-3. pp. 19–41.
22. Reynolds D.A., Rose R.C. Robust text-independent speaker identification using Gaussian mixture speaker models // IEEE Transactions on Speech and Audio Processing. 1995. vol. 3 no. 1. pp. 72–83.
23. Reynolds D.A., Quatieri T.F., Dunn R.B. Speaker verification using adapted Gaussian mixture models // Digital Signal Processing. 2000. vol. 10. no. 1. pp. 19–41.
24. Sadjadi S.O., Slaney M., Heck L. MSR identity toolbox v1.0: A MATLAB toolbox for speaker-recognition research // Speech and Language Processing Technical Committee Newsletter. 2013.
25. Вольф Д.А., Мещеряков Р.В. Модель процесса сингулярного оценивания частоты основного тона речевого сигнала // Акустический журнал. 2016. Т. 62. № 2. С. 216–226.
26. Мещеряков Р.В., Конев А.А. К вопросу об исследовании биологических параметров человека в защищенных системах //Доклады Томского государственного университета систем управления и радиоэлектроники. 2010. Т. 21. № 1-1. C. 131–133.
27. Вольф Д.А., Мещеряков Р.В. Модель и программная реализация сингулярного оценивания частоты основного тона речевого сигнала // Труды СПИИРАН. 2015. Вып. 6(43). C. 191–209.
28. Ronzhin A.L., Karpov A.A. Russian voice interface. Pattern Recognition and Image Analysis. 2007. vol. 17(2). pp. 321–336.
29. Karpov A. et al. Audio-Visual Speech Asynchrony Modeling in a Talking Head // In Proc. 10-th International Conference Interspeech. Brighton. UK. 2009. pp. 2911–2914.
30. Ручай А.Н. Улучшение надежности текстозависимой верификации диктора на основе формантного метода с помощью нового метода сегментации речевого сигнала // Доклады Томского государственного университета систем управления и радиоэлектроники. 2011. Т. 24. № 2-2. С. 241–246.
31. Елистратов С.А. и др. Сравнение параметров для выделения вокализованных сегментов и классификации гласных фонем // Доклады Томского государственного университета систем управления и радиоэлектроники. 2012. T. 24. № 1-2. С. 171–174.
32. Кормен Т. и др. Алгоритмы. Построение и анализ. Глава 16. Жадные алгоритмы: пер. с англ. // Издательский дом Вильямс. 2012. 1296 c.
33. Holland J.H. Adaptation in natural and artificial systems: an introductory analysis with applications to biology, control, and artificial intelligence // MIT press. 1992. 232 p.
2. Campbell Jr.J.P. Speaker recognition: a tutorial // Proceedings of the IEEE. 1997. vol. 85. no. 9. pp. 1437–1462.
3. Sahidullah M., Saha G. A novel windowing technique for efficient computation of MFCC for speaker recognition // IEEE signal processing letters. 2013. vol. 20. no. 2. pp. 149–152.
4. Motlicek P. et al. Employment of subspace gaussian mixture models in speaker recognition // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2015. pp. 4445–4449.
5. Greenberg C. S. et al. The NIST 2014 speaker recognition i-vector machine learning challenge // Odyssey: The Speaker and Language Recognition Workshop. 2014. pp. 224–230.
6. Lei Y. et al. A novel scheme for speaker recognition using a phonetically-aware deep neural network // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2014. pp. 1695–1699.
7. Shum S.H. et al. Unsupervised clustering approaches for domain adaptation in speaker recognition systems // Odyssey: The Speaker and Language Recognition Workshop. 2014. pp. 265–272.
8. Stafylakis T. et al. Compensation for phonetic nuisance variability in speaker recognition using DNNs // Odyssey: The Speaker and Language Recognition Workshop. 2016. pp. 340–345.
9. Kenny P. et al. Deep neural networks for extracting baum-welch statistics for speaker recognition // Proc. Odyssey. 2014. pp. 293–298.
10. van Leeuwen D.A., Saeidi R. Knowing the non-target speakers: The effect of the i-vector population for PLDA training in speaker recognition // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2013. pp. 6778–6782.
11. Xu L. et al. Rapid Computation of I-vector // Odyssey: The Speaker and Language Recognition Workshop. 2016. pp. 47–52.
12. Ahmad K.S. et al. A unique approach in text independent speaker recognition using MFCC feature sets and probabilistic neural network // Advances in Pattern Recognition (ICAPR). 2015. pp. 1–6.
13. McLaren M., Ferrer L., Lawson A. Exploring the role of phonetic bottleneck features for speaker and language recognition // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2016. pp. 5575–5579.
14. Richardson F., Reynolds D., Dehak N. Deep neural network approaches to speaker and language recognition // IEEE Signal Processing Letters. 2015. vol. 22. no. 10. pp. 1671–1675.
15. Dehak N. et al. Front-end factor analysis for speaker verification // IEEE Transactions on Audio, Speech, and Language Processing. 2011. vol. 19. no. 4. pp. 788–798.
16. Variani E. et al. Deep neural networks for small footprint text-dependent speaker verification // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2014. pp. 4052–4056.
17. Davis S.B., Mermelstein P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences // IEEE Transactions on Acoustics, Speech and Signal Processing. 1980. vol. 28. no. 4. pp. 357–366.
18. Atal B.S. Automatic recognition of speakers from their voices // Proceedings of the IEEE. 1976. vol. 64 no. 4 pp. 460–475.
19. Jurafsky D., Martin J.H. Speech and Language Processing: second edition // Pearson Education. New Jersey. 2009. 950 p.
20. Eyben F., Weninger F., Gross F., Schuller B. Recent developments in opensmile, the munich open-source multimedia feature extractor // Proceedings of the 21st ACM international conference on Multimedia. 2013. pp. 835–838.
21. Reynolds D.A. Gaussian mixture models // Encyclopedia of biometric recognition. Springer. Heidelberg. 2008. vol. 10. Issue 1-3. pp. 19–41.
22. Reynolds D.A., Rose R.C. Robust text-independent speaker identification using Gaussian mixture speaker models // IEEE Transactions on Speech and Audio Processing. 1995. vol. 3 no. 1. pp. 72–83.
23. Reynolds D.A., Quatieri T.F., Dunn R.B. Speaker verification using adapted Gaussian mixture models // Digital Signal Processing. 2000. vol. 10. no. 1. pp. 19–41.
24. Sadjadi S.O., Slaney M., Heck L. MSR identity toolbox v1.0: A MATLAB toolbox for speaker-recognition research // Speech and Language Processing Technical Committee Newsletter. 2013.
25. Вольф Д.А., Мещеряков Р.В. Модель процесса сингулярного оценивания частоты основного тона речевого сигнала // Акустический журнал. 2016. Т. 62. № 2. С. 216–226.
26. Мещеряков Р.В., Конев А.А. К вопросу об исследовании биологических параметров человека в защищенных системах //Доклады Томского государственного университета систем управления и радиоэлектроники. 2010. Т. 21. № 1-1. C. 131–133.
27. Вольф Д.А., Мещеряков Р.В. Модель и программная реализация сингулярного оценивания частоты основного тона речевого сигнала // Труды СПИИРАН. 2015. Вып. 6(43). C. 191–209.
28. Ronzhin A.L., Karpov A.A. Russian voice interface. Pattern Recognition and Image Analysis. 2007. vol. 17(2). pp. 321–336.
29. Karpov A. et al. Audio-Visual Speech Asynchrony Modeling in a Talking Head // In Proc. 10-th International Conference Interspeech. Brighton. UK. 2009. pp. 2911–2914.
30. Ручай А.Н. Улучшение надежности текстозависимой верификации диктора на основе формантного метода с помощью нового метода сегментации речевого сигнала // Доклады Томского государственного университета систем управления и радиоэлектроники. 2011. Т. 24. № 2-2. С. 241–246.
31. Елистратов С.А. и др. Сравнение параметров для выделения вокализованных сегментов и классификации гласных фонем // Доклады Томского государственного университета систем управления и радиоэлектроники. 2012. T. 24. № 1-2. С. 171–174.
32. Кормен Т. и др. Алгоритмы. Построение и анализ. Глава 16. Жадные алгоритмы: пер. с англ. // Издательский дом Вильямс. 2012. 1296 c.
33. Holland J.H. Adaptation in natural and artificial systems: an introductory analysis with applications to biology, control, and artificial intelligence // MIT press. 1992. 232 p.
Опубликован
2017-05-31
Как цитировать
Рахманенко, И. А., & Мещеряков, Р. В. (2017). Анализ идентификационных признаков в речевых данных с помощью GMM-UBM системы верификации диктора. Труды СПИИРАН, 3(52), 32-50. https://doi.org/10.15622/sp.52.2
Раздел
Теоретическая и прикладная математика
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).