Система идентификации дикторов по голосу для конкурса NIST SRE 2012

Александр Викторович Козлов; Олег Юрьевич Кудашев; Юрий Николаевич Матвеев; Тимур Сахиевич Пеховский; Константин Константинович Симончик; Андрей Константинович Шулипа

doi:10.15622/sp.25.18

Александр Викторович Козлов ведущий программист ООО «ЦРТ-инновации»
Олег Юрьевич Кудашев программист ООО «ЦРТ-инновации» Санкт-Петербургский государственный университет информационных технологий, механики и оптики Оптики
Юрий Николаевич Матвеев главный научный сотрудник ООО «ЦРТ-инновации» Санкт-Петербургский государственный университет информационных технологий, механики и оптики Оптики
Тимур Сахиевич Пеховский ведущий научный сотрудник ООО «ЦРТ-инновации» Санкт-Петербургский государственный университет информационных технологий, механики и оптики Оптики
Константин Константинович Симончик руководитель отдела ООО «ЦРТ-инновации» Санкт-Петербургский государственный университет информационных технологий, механики и оптики Оптики
Андрей Константинович Шулипа научный сотрудник компании ООО «ЦРТ-инновации»

DOI:

https://doi.org/10.15622/sp.25.18

Ключевые слова:

биометрическая идентификация, идентификация диктора, распознавание по голосу, GMM, PLDA, JFA, NIST

Аннотация

Приведено описание системы идентификации дикторов по голосу, разработанной для конкурса по оцениванию систем распознавания дикторов NIST SRE 2012

Литература

Белых И.Н., Капустин А.И., Козлов А.В., Лоханова А.И., Матвеев Ю.Н., Пеховский Т.С., Симончик К.К., Шулипа А.К. Система идентификации дикторов по голосу для конкурса NIST SRE 2010 // Информ. и её примен., 2012. 6:1. С. 91–98

Матвеев Ю.Н. Технологии биометрической идентификации личности по голосу и другим модальностям // Вестник МГТУ им. Н.Э. Баумана. Сер. Приборостроение, 2012. № 3, Специальный выпуск Биометрические технологии. С. 46–61

Симончик К. К. Метод и алгоритмы текстонезависимой верификации дикторов по голосу. LAP LAMBERT Academic Publishing GmbH & Co. KG, Saarbrucken, Germany, 2011. 188 с. ISBN: 978-3-8433-1295-0

The NIST Year 2012 Speaker Recognition Evaluation Plan. 2012. http://www.nist.gov/itl/iad/mig/upload/NIST_SRE12_evalplan-v17-r1.pdf

The NIST Year 2008 Speaker Recognition Evaluation Plan. 2008. http://www.itl.nist.gov/iad/mig/tests/sre/2008/sre08_evalplan_release4.pdf

The NIST Year 2010 Speaker Recognition Evaluation Plan. 2010. http://www.nist.gov/itl/iad/mig/upload/NIST_SRE10_evalplan-r6.pdf

Симончик К.К., Галинина О.С., Капустин А.И. Алгоритм обнаружения речевой активности на основе статистик основного тона в задаче распознавания диктора // Научно-технические ведомости СПбГПУ. 2010. 103:4. С. 18–23

Козлов А.В., Лоханова А.И., Симончик К.К. Алгоритм детектирования музыкальных фрагментов в задачах речевой обработки // Научно-технические ведомости СПбГПУ. 2010. 103:4. С. 7–11. Издательство Политехнического университета

Алейник С.В., Симончик К.К. Алгоритмы выделения типовых помех и искажений в записях речевых сигналов // Известия ВУЗов. Сер. Приборостроение. 2013. 56:2. (впечати)

Алейник С.В., Матвеев Ю.Н., Раев А.Н. Алгоритмы оценки уровня клиппирования речевых сигналов // Научно-технический вестник информационных технологий, механики и оптики. 2012. №3. С. 79–83

Ignatov P., Stolbov M., Aleinik S. Semi-Automated Technique for Noisy Recording Enhancement Using an Independent Reference Recording // Audio Engineering Society Conference: 46th International Conference: Audio Forensics (Denver, CO, USA, June 14–16). 2012. С. 2–3. http://www.aes.org/e-lib/browse.cfm?elib=16342

Reynolds D. Experimental evaluation of features for robust speaker identiﬁcation // IEEE Transactionson Speech and Audio Processing. 1994. 2:4. P. 639-643

Zhou X., Garcia-Romero D., Duraiswami R., Espy-Wilson C., Shamma S. Linear versus mel frequency cepstral coeﬃcients for speaker recognition // Proc. 2011 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU) (Hawaii). 2011. P. 559–564

Bimbot F. et al. A Tutorial on Text-Independent Speaker Veriﬁcation // EURASIP Journal on Applied Signal Processing. 2004. №4. P.430-451

Burget L., Matejka P., Glembek O., et al. Analysis of feature extraction and channel compensation in GMM speaker recognition system // IEEE Trans. On Audio, Speech and Language Processing. 2007. 15:7. P. 1979-1986

Kenny P., Ouellet P., Dehak N., et al. A Study of Inter-Speaker Variability in Speaker Veriﬁcation // IEEE Transactions on Audio, Speech and Language Processing. 2008. 16:5. P. 980-988

Kenny P., Boulianne G., Ouelle P., Dumouchel P. Joint factor analysis versus eigenchannels in speaker recognition // IEEE Transactions on Audio, Speech and Language Processing.2007. 15:4. P. 1435–1447

Pekhovsky T., Oparin I. Eigen Channel Method for Text-Independent Russian Speaker Veriﬁcation // Speech and Computer (SpeCom'08): Proc. Of the XII International Conference (Moscow). 2008. P. 385-390

Pekhovsky T., Oparin I. Maximum Likelihood Estimations in the Session-Independent Modelling of the Speaker // Speech and Computer (SpeCom’09): Proc. Of the XIII International Conference (St.-Petersburg). 2009. P. 267-270

Reynolds D.A., Quatieri T.F., Dunn R.B. Speaker Verification Using Adapted Gaussian Mixture Models // Digital Signal Processing. 2000. №10. P. 19-41

Matejka P., Glembek O., Castaldo F., Alam J., Plchot O., Kenny P., Burget L., Cernocky J. FullCovariance UBM and Heavy-Tailed PLDA in i-vector Speaker Veriﬁcation // Proc. ICASSP. (Prague, Czech Republic, May). 2011. P. 4828-4831

Simonchik K., Pekhovsky T., Shulipa A., Afanasyev A. Supervized Mixture of PLDA Models for Cross-Channel Speaker Verification // 13th Annual Conference of the International Speech Communication Association, Interspeech-2012 (Portland, Oregon, USA, September 9-13). 2012

De Silva V., Tenenbaum J.B. Sparse multidimensional scaling using landmark points. Technical Report (Stanford University). 2004. http://window.stanford.edu/courses/cs468-05-winter/Papers/Landmarks/Silva_landmarks5.pdf

Garcia-Romero D., Espy-Wilson C.Y. Analysis of I-vector Length Normalization in Speaker Recognition Systems // Proc. Of Interspeech (Florence, Italy). 2011. P.249–252

Vogt R., Sridharan S. Explicit Modelling of Session Variability for Speaker Veriﬁcation // Computer Speech & Language. 2008. 22:1. P.17-38

BOSARIS Toolkit. https://sites.google.com/site/bosaristoolkit/

Kenny P. Bayesian speaker veriﬁcation with heavy tailed priors. Keynote presentation // Proceedings of the Odyssey Speaker and Language Recognition Workshop (Brno, Czech Republic, June). 2010. http://www.crim.ca/perso/patrick.kenny/kenny_Odyssey2010.pdf

Dehak N., Kenny P., Dehak R., Dumouchel P., Ouellet P. Front-end factor analysis for speaker veriﬁcation // IEEE Transactions on Audio, Speech & Language Processing. 2011. 19:4

Просмотры	2245
Скачивания	1495

Статьи

Система идентификации дикторов по голосу для конкурса NIST SRE 2012

DOI:

Ключевые слова:

Аннотация

Литература

Опубликован

Статистика

Как цитировать

Выпуск

Раздел

Импакт-фактор

Разделы

Мы в сети

Обратная связь