Система идентификации дикторов по голосу для конкурса NIST SRE 2012
Ключевые слова:
биометрическая идентификация, идентификация диктора, распознавание по голосу, GMM, PLDA, JFA, NISTАннотация
Приведено описание системы идентификации дикторов по голосу, разработанной для конкурса по оцениванию систем распознавания дикторов NIST SRE 2012Литература
Белых И.Н., Капустин А.И., Козлов А.В., Лоханова А.И., Матвеев Ю.Н., Пеховский Т.С., Симончик К.К., Шулипа А.К. Система идентификации дикторов по голосу для конкурса NIST SRE 2010 // Информ. и её примен., 2012. 6:1. С. 91–98
Матвеев Ю.Н. Технологии биометрической идентификации личности по голосу и другим модальностям // Вестник МГТУ им. Н.Э. Баумана. Сер. Приборостроение, 2012. № 3, Специальный выпуск Биометрические технологии. С. 46–61
Симончик К. К. Метод и алгоритмы текстонезависимой верификации дикторов по голосу. LAP LAMBERT Academic Publishing GmbH & Co. KG, Saarbrucken, Germany, 2011. 188 с. ISBN: 978-3-8433-1295-0
The NIST Year 2012 Speaker Recognition Evaluation Plan. 2012. http://www.nist.gov/itl/iad/mig/upload/NIST_SRE12_evalplan-v17-r1.pdf
The NIST Year 2008 Speaker Recognition Evaluation Plan. 2008. http://www.itl.nist.gov/iad/mig/tests/sre/2008/sre08_evalplan_release4.pdf
The NIST Year 2010 Speaker Recognition Evaluation Plan. 2010. http://www.nist.gov/itl/iad/mig/upload/NIST_SRE10_evalplan-r6.pdf
Симончик К.К., Галинина О.С., Капустин А.И. Алгоритм обнаружения речевой активности на основе статистик основного тона в задаче распознавания диктора // Научно-технические ведомости СПбГПУ. 2010. 103:4. С. 18–23
Козлов А.В., Лоханова А.И., Симончик К.К. Алгоритм детектирования музыкальных фрагментов в задачах речевой обработки // Научно-технические ведомости СПбГПУ. 2010. 103:4. С. 7–11. Издательство Политехнического университета
Алейник С.В., Симончик К.К. Алгоритмы выделения типовых помех и искажений в записях речевых сигналов // Известия ВУЗов. Сер. Приборостроение. 2013. 56:2. (впечати)
Алейник С.В., Матвеев Ю.Н., Раев А.Н. Алгоритмы оценки уровня клиппирования речевых сигналов // Научно-технический вестник информационных технологий, механики и оптики. 2012. №3. С. 79–83
Ignatov P., Stolbov M., Aleinik S. Semi-Automated Technique for Noisy Recording Enhancement Using an Independent Reference Recording // Audio Engineering Society Conference: 46th International Conference: Audio Forensics (Denver, CO, USA, June 14–16). 2012. С. 2–3. http://www.aes.org/e-lib/browse.cfm?elib=16342
Reynolds D. Experimental evaluation of features for robust speaker identification // IEEE Transactionson Speech and Audio Processing. 1994. 2:4. P. 639-643
Zhou X., Garcia-Romero D., Duraiswami R., Espy-Wilson C., Shamma S. Linear versus mel frequency cepstral coefficients for speaker recognition // Proc. 2011 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU) (Hawaii). 2011. P. 559–564
Bimbot F. et al. A Tutorial on Text-Independent Speaker Verification // EURASIP Journal on Applied Signal Processing. 2004. №4. P.430-451
Burget L., Matejka P., Glembek O., et al. Analysis of feature extraction and channel compensation in GMM speaker recognition system // IEEE Trans. On Audio, Speech and Language Processing. 2007. 15:7. P. 1979-1986
Kenny P., Ouellet P., Dehak N., et al. A Study of Inter-Speaker Variability in Speaker Verification // IEEE Transactions on Audio, Speech and Language Processing. 2008. 16:5. P. 980-988
Kenny P., Boulianne G., Ouelle P., Dumouchel P. Joint factor analysis versus eigenchannels in speaker recognition // IEEE Transactions on Audio, Speech and Language Processing.2007. 15:4. P. 1435–1447
Pekhovsky T., Oparin I. Eigen Channel Method for Text-Independent Russian Speaker Verification // Speech and Computer (SpeCom'08): Proc. Of the XII International Conference (Moscow). 2008. P. 385-390
Pekhovsky T., Oparin I. Maximum Likelihood Estimations in the Session-Independent Modelling of the Speaker // Speech and Computer (SpeCom’09): Proc. Of the XIII International Conference (St.-Petersburg). 2009. P. 267-270
Reynolds D.A., Quatieri T.F., Dunn R.B. Speaker Verification Using Adapted Gaussian Mixture Models // Digital Signal Processing. 2000. №10. P. 19-41
Matejka P., Glembek O., Castaldo F., Alam J., Plchot O., Kenny P., Burget L., Cernocky J. FullCovariance UBM and Heavy-Tailed PLDA in i-vector Speaker Verification // Proc. ICASSP. (Prague, Czech Republic, May). 2011. P. 4828-4831
Simonchik K., Pekhovsky T., Shulipa A., Afanasyev A. Supervized Mixture of PLDA Models for Cross-Channel Speaker Verification // 13th Annual Conference of the International Speech Communication Association, Interspeech-2012 (Portland, Oregon, USA, September 9-13). 2012
De Silva V., Tenenbaum J.B. Sparse multidimensional scaling using landmark points. Technical Report (Stanford University). 2004. http://window.stanford.edu/courses/cs468-05-winter/Papers/Landmarks/Silva_landmarks5.pdf
Garcia-Romero D., Espy-Wilson C.Y. Analysis of I-vector Length Normalization in Speaker Recognition Systems // Proc. Of Interspeech (Florence, Italy). 2011. P.249–252
Vogt R., Sridharan S. Explicit Modelling of Session Variability for Speaker Verification // Computer Speech & Language. 2008. 22:1. P.17-38
BOSARIS Toolkit. https://sites.google.com/site/bosaristoolkit/
Kenny P. Bayesian speaker verification with heavy tailed priors. Keynote presentation // Proceedings of the Odyssey Speaker and Language Recognition Workshop (Brno, Czech Republic, June). 2010. http://www.crim.ca/perso/patrick.kenny/kenny_Odyssey2010.pdf
Dehak N., Kenny P., Dehak R., Dumouchel P., Ouellet P. Front-end factor analysis for speaker verification // IEEE Transactions on Audio, Speech & Language Processing. 2011. 19:4
Матвеев Ю.Н. Технологии биометрической идентификации личности по голосу и другим модальностям // Вестник МГТУ им. Н.Э. Баумана. Сер. Приборостроение, 2012. № 3, Специальный выпуск Биометрические технологии. С. 46–61
Симончик К. К. Метод и алгоритмы текстонезависимой верификации дикторов по голосу. LAP LAMBERT Academic Publishing GmbH & Co. KG, Saarbrucken, Germany, 2011. 188 с. ISBN: 978-3-8433-1295-0
The NIST Year 2012 Speaker Recognition Evaluation Plan. 2012. http://www.nist.gov/itl/iad/mig/upload/NIST_SRE12_evalplan-v17-r1.pdf
The NIST Year 2008 Speaker Recognition Evaluation Plan. 2008. http://www.itl.nist.gov/iad/mig/tests/sre/2008/sre08_evalplan_release4.pdf
The NIST Year 2010 Speaker Recognition Evaluation Plan. 2010. http://www.nist.gov/itl/iad/mig/upload/NIST_SRE10_evalplan-r6.pdf
Симончик К.К., Галинина О.С., Капустин А.И. Алгоритм обнаружения речевой активности на основе статистик основного тона в задаче распознавания диктора // Научно-технические ведомости СПбГПУ. 2010. 103:4. С. 18–23
Козлов А.В., Лоханова А.И., Симончик К.К. Алгоритм детектирования музыкальных фрагментов в задачах речевой обработки // Научно-технические ведомости СПбГПУ. 2010. 103:4. С. 7–11. Издательство Политехнического университета
Алейник С.В., Симончик К.К. Алгоритмы выделения типовых помех и искажений в записях речевых сигналов // Известия ВУЗов. Сер. Приборостроение. 2013. 56:2. (впечати)
Алейник С.В., Матвеев Ю.Н., Раев А.Н. Алгоритмы оценки уровня клиппирования речевых сигналов // Научно-технический вестник информационных технологий, механики и оптики. 2012. №3. С. 79–83
Ignatov P., Stolbov M., Aleinik S. Semi-Automated Technique for Noisy Recording Enhancement Using an Independent Reference Recording // Audio Engineering Society Conference: 46th International Conference: Audio Forensics (Denver, CO, USA, June 14–16). 2012. С. 2–3. http://www.aes.org/e-lib/browse.cfm?elib=16342
Reynolds D. Experimental evaluation of features for robust speaker identification // IEEE Transactionson Speech and Audio Processing. 1994. 2:4. P. 639-643
Zhou X., Garcia-Romero D., Duraiswami R., Espy-Wilson C., Shamma S. Linear versus mel frequency cepstral coefficients for speaker recognition // Proc. 2011 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU) (Hawaii). 2011. P. 559–564
Bimbot F. et al. A Tutorial on Text-Independent Speaker Verification // EURASIP Journal on Applied Signal Processing. 2004. №4. P.430-451
Burget L., Matejka P., Glembek O., et al. Analysis of feature extraction and channel compensation in GMM speaker recognition system // IEEE Trans. On Audio, Speech and Language Processing. 2007. 15:7. P. 1979-1986
Kenny P., Ouellet P., Dehak N., et al. A Study of Inter-Speaker Variability in Speaker Verification // IEEE Transactions on Audio, Speech and Language Processing. 2008. 16:5. P. 980-988
Kenny P., Boulianne G., Ouelle P., Dumouchel P. Joint factor analysis versus eigenchannels in speaker recognition // IEEE Transactions on Audio, Speech and Language Processing.2007. 15:4. P. 1435–1447
Pekhovsky T., Oparin I. Eigen Channel Method for Text-Independent Russian Speaker Verification // Speech and Computer (SpeCom'08): Proc. Of the XII International Conference (Moscow). 2008. P. 385-390
Pekhovsky T., Oparin I. Maximum Likelihood Estimations in the Session-Independent Modelling of the Speaker // Speech and Computer (SpeCom’09): Proc. Of the XIII International Conference (St.-Petersburg). 2009. P. 267-270
Reynolds D.A., Quatieri T.F., Dunn R.B. Speaker Verification Using Adapted Gaussian Mixture Models // Digital Signal Processing. 2000. №10. P. 19-41
Matejka P., Glembek O., Castaldo F., Alam J., Plchot O., Kenny P., Burget L., Cernocky J. FullCovariance UBM and Heavy-Tailed PLDA in i-vector Speaker Verification // Proc. ICASSP. (Prague, Czech Republic, May). 2011. P. 4828-4831
Simonchik K., Pekhovsky T., Shulipa A., Afanasyev A. Supervized Mixture of PLDA Models for Cross-Channel Speaker Verification // 13th Annual Conference of the International Speech Communication Association, Interspeech-2012 (Portland, Oregon, USA, September 9-13). 2012
De Silva V., Tenenbaum J.B. Sparse multidimensional scaling using landmark points. Technical Report (Stanford University). 2004. http://window.stanford.edu/courses/cs468-05-winter/Papers/Landmarks/Silva_landmarks5.pdf
Garcia-Romero D., Espy-Wilson C.Y. Analysis of I-vector Length Normalization in Speaker Recognition Systems // Proc. Of Interspeech (Florence, Italy). 2011. P.249–252
Vogt R., Sridharan S. Explicit Modelling of Session Variability for Speaker Verification // Computer Speech & Language. 2008. 22:1. P.17-38
BOSARIS Toolkit. https://sites.google.com/site/bosaristoolkit/
Kenny P. Bayesian speaker verification with heavy tailed priors. Keynote presentation // Proceedings of the Odyssey Speaker and Language Recognition Workshop (Brno, Czech Republic, June). 2010. http://www.crim.ca/perso/patrick.kenny/kenny_Odyssey2010.pdf
Dehak N., Kenny P., Dehak R., Dumouchel P., Ouellet P. Front-end factor analysis for speaker verification // IEEE Transactions on Audio, Speech & Language Processing. 2011. 19:4
Опубликован
2013-04-01
Как цитировать
Козлов, А. В., Кудашев, О. Ю., Матвеев, Ю. Н., Пеховский, Т. С., Симончик, К. К., & Шулипа, А. К. (2013). Система идентификации дикторов по голосу для конкурса NIST SRE 2012. Труды СПИИРАН, 2(25), 350-370. https://doi.org/10.15622/sp.25.18
Раздел
Статьи
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).