Использование сегментации речевого сигнала для построения комплексной модели диктора в системе идентификации говорящего
Ключевые слова:
кластеризация, гауссовы смеси, модели дикторов, широкие фонетические классы, мел-частотные кепстральные коэффициентыАннотация
Статья посвящена разработке комплексной модели диктора в задаче текстонезависимой идентификации по голосу. Комплексная модель базируется на методе гауссовых смесей. Ее формируют по речевому сигналу, который предварительно сегментируется на фрагменты, соответствующие различным фонетическим классам звуков. Предложен способ структурирования моделей дикторов. Модели дикторов структурированы в виде дерева, что позволило проводить идентификацию диктора без выполнения полного перебора всего множества моделей. Проведенные исследования показали, что деление акустического пространства голоса диктора на множество классов, представляющих некоторые фонетические события, приводит к увеличению эффективности идентификации по голосу, а предложенное структурирование множества моделей дикторов ускоряет операцию поиска.Литература
Ронжин Ал.Л., Будков В.Ю., Ронжин Ан.Л. Формирование профиля пользователя на основе аудиовизуального анализа ситуации в интеллектуальном зале совещаний // Труды СПИИРАН. 2012. Вып. 23. С. 482–494
Садыхов Р.Х., Ракуш В.В. Модели гауссовых смесей для верификации диктора по произвольной речи // Доклады БГУИР. 2003. №4. С. 95–103
Wei-Qiang Zhang, Jia Liu Discriminative universal background model training for speaker recognition // Speech and Language Technologies, 2011. P. 241–256
Wu Q, Zhang L.Q., Shi G.C. Robust feature extraction for speaker recognition based on constrained nonnegative tensor factorization // Journal of computer science and technology. №25(4). P. 745–754
Young S.G. The HTK hidden markov model toolkit: design and philosophy // Cambridge university engineering dept. Technical report 1993
Кипяткова И.С., Карпов А.А. Эксперименты по распознаванию слитной русской речи с использованием сверхбольшого словаря // Труды СПИИРАН. Вып. 12, СПб.: Наука, 2010. С. 63–74
Bartlett P., Shawe-Taylor J. Generalization performance of support vector machines and other pattern classifiers // Advances in Kernel Methods. MIT Press, 1998. 13 p.
Сорокин В.Н., Цыплихин А.И. Верификация диктора по спектрально-временным параметрам речевого сигнала // Информационные процессы. Т. 10, № 2. С. 87–104
Садыхов Р.Х., Ракуш В.В. Модели гауссовых смесей для верификации диктора по произвольной речи // Доклады БГУИР. 2003. №4. С. 95–103
Wei-Qiang Zhang, Jia Liu Discriminative universal background model training for speaker recognition // Speech and Language Technologies, 2011. P. 241–256
Wu Q, Zhang L.Q., Shi G.C. Robust feature extraction for speaker recognition based on constrained nonnegative tensor factorization // Journal of computer science and technology. №25(4). P. 745–754
Young S.G. The HTK hidden markov model toolkit: design and philosophy // Cambridge university engineering dept. Technical report 1993
Кипяткова И.С., Карпов А.А. Эксперименты по распознаванию слитной русской речи с использованием сверхбольшого словаря // Труды СПИИРАН. Вып. 12, СПб.: Наука, 2010. С. 63–74
Bartlett P., Shawe-Taylor J. Generalization performance of support vector machines and other pattern classifiers // Advances in Kernel Methods. MIT Press, 1998. 13 p.
Сорокин В.Н., Цыплихин А.И. Верификация диктора по спектрально-временным параметрам речевого сигнала // Информационные процессы. Т. 10, № 2. С. 87–104
Опубликован
2013-06-01
Как цитировать
Ермоленко, Т. В., & Клименко, Н. С. (2013). Использование сегментации речевого сигнала для построения комплексной модели диктора в системе идентификации говорящего. Труды СПИИРАН, 3(26), 332-348. https://doi.org/10.15622/sp.26.21
Раздел
Статьи
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).