Том 1 № 32 (2014): Труды СПИИРАН | Информатика и автоматизация

DOI: https://doi.org/10.15622/sp.32

Опубликован: 2014-04-09

Весь выпуск

Статьи

Илья Сергеевич Азаров, Максим Иосифович Вашкевич, Денис Сергеевич Лихачев, Александр Александрович Петровский

Изменение частоты основного тона речевого сигнала на основе гармонической модели с нестационарными параметрами

5-26

В статье предлагается решение задачи изменения частоты основного тона речевого сигнала. Необходимость решения данной задачи возникает во многих речевых приложениях таких как конверсия голоса, коррекция акцента, обеспечение конфиденциальности диктора и др. Разработанная схема обработки вокализованной части речевого сигнала основывается на гармонической модели с нестационарными (изменяющимися в каждый момент времени) параметрами. Для повышения частотного разрешения модели оценка параметров выполнятся при помощи узкополосной фильтрации в искривленном масштабе времени, согласованном с контуром мгновенной частоты основного тона. На основании субъективной оценки результатов показано, что разработанный способ обес-печивает высокую натуральность и разборчивость синтезированной речи и может применяться как в широкополосных так и в узкополосных каналах связи с различными стандартами кодирования (в том числе с кодеками G.711 и GSM).
- PDF
Олег Олегович Басов, Максим Васильевич Носов, Владимир Александрович Шалагинов

Исследование характеристик джиттера периода основного тона речевого сигнала

27-44

Стремление к повышению качества кодирования обусловило необходимость более глубокого анализа характеристик речевого сигнала и синтеза его прецизионных моделей. В работе предложен научно-методический инструментарий оценки периода основного тона речевого сигнала и разделения его джиттера на периодическую и случайную компоненты. Результаты его использования позволили улучшить качество субъективного восприятия речевого сигнала за счет уточнения модели формирования значений периода основного тона и установить наличие корреляции периодического джиттера с пульсом говорящего человека.
- PDF
Сергей Дмитриевич Тиунов, Роман Валерьевич Мещеряков, Дмитрий Владимирович Черных

Оптимизация вычисления одновременной маскировки речевого сигнала

45-57

В настоящей статье предлагается оптимизация вычисления одновременной маскировки речевого сигнала для реализации в задачах реального времени. Показана трудоемкость циклической свертки для итерационного алгоритма Тоома-Кука длины 4 и алгоритма на основе БПФ. Делается вывод об эффективности предлагаемых решений по вычислительной сложности и по объемам занимаемой память.
- PDF
Вера Вячеславовна Евдокимова

Анализ спектра гласных на основе неравномерной психоакустической шкалы эрбов для определения словесного ударения

58-67

Рассматривается возможность определения в слове ударного слога путем изучения особенностей формантной картины. На основе анализа массива логатомов выявляются особенности формантной картины, причем сравниваются энергетические характеристики отдельных формант. Опираясь на допущение об оптимальности способа формирования диктором речевой посылки, спектр гласных разбивается по психоакустической шкале эрбов. Для удобства обработки материала полученный массив частичных дисперсий кодифицируется. Для выявления признака ударности полученный массив кодов разбивается по признаку гласной и по признаку ударности. Сравнение частичных массивов дает возможность подтвердить существование исследуемого признака ударности и выявить фонетические особенности этого явления, существующие в формантной картине. Сделан вывод о возможности применения признака ударности по особенностям формантной картины гласной как эффективно дополняющего определение ударности слога в слове по иным общепринятым признакам.
- PDF
Татьяна Васильевна Качковская

Использование темпоральных характеристик для сегментации речевого потока на крупные смысловые единицы (на материале русского языка)

68-81

Настоящая работа посвящена исследованию темпоральных характеристик гласных в словах, расположенных на концах крупных смысловых единиц — синтагм и фраз. Исследование выполняется на материале корпуса CORPRES, содержащего записи чтения текстов профессиональными дикторами; общее время звучания проанализированного материала составляет около 12 часов. Результаты анализа значений нормализованной длительности гласных показали, что в словах, расположенных на конце синтагмы или фразы, удлиняется ударный гласный, а также заударный, если он находится в абсолютном конце слова; это верно даже в тех случаях, когда фразовое ударение реализуется не на последнем слове синтагмы. На степень удлинения влияет наличие последующей паузы, «глубина» границы, наличие фразового ударения на последнем слове синтагмы и тип интонационного контура. Кроме того, описаны особенности темпорального оформления незавершенности по типу ИК-3 и логического ударения по типу ИК-2 в позиции перед границей синтагмы.
- PDF
Вадим Анатольевич Захарьев, Александр Александрович Петровский, Борис Мефодьевич Лобанов

Система синтеза речи по тексту с возможностью настройки на голос целевого диктора

82-98

В статье представлена схема построения мультиголосового синтезатора речи, основанная на использовании синергетического эффекта от интеграции системы синтеза речи по тексту и конверсии голоса. Такая организация даёт возможность одновременно выполнять действия синтеза и модификации речевого сигнала на основе комплексного подхода, позволяя снизить количество ошибок и артефактов, которые влияют на качество речевого сигнала. Применение данного подхода обеспечивает реализацию функции настройки синтезатора речи на голос целевого диктора без существенных затрат трудоёмкости на обучение речевой базы данных, для добавления новых голосов.
- PDF
Елена Евгеньевна Ляксо, Алексей Сергеевич Григорьев, Владимир Максудович Ситдиков, Елена Александровна Огородникова

Программное обеспечение модели «INFANT.MAVS» для изучения психофизиологического состояния детей первого года жизни

99-115

Создана модель мультимодальной сенсорной среды «INFANT.MAVS», включающая две базы стимулов разной перцептивной сложности – простых (визуальных, звуковых, тактильных и графических) и комплексных, синтезированных на основе сочетания простых. Программное обеспечение модели включает компонент управления созданными базами данных и саму базу данных. Компонент управления разработан на языке Microsoft Visual Basic v.6.0 и предназначен для работы под управлением операционных систем семейства Windows (Windows XP, Windows Vista, Windows 7). Программное обеспечение базы делает работу с моделью доступной и удобной для любого пользователя
- PDF
Роман Валерьевич Мещеряков, Евгений Юрьевич Костюченко, Лидия Николаевна Балацкая, Евгений Лхамацыренович Чойнзонов

Структура и база данных программного обеспечения оценки качества и разборчивости речи в процессе реабилитации после операции при лечении рака полости рта и ротоглотки, челюстнолицевой области

116-124

В настоящей статье рассмотрены этапы исследования по оценке разборчивости и качества речи, проводимого совместно НИИ онкологии СО РАМН и Томским государственным университетом систем управления и радиоэлектроники. Рассмотрено программное обеспечение для сбора материала для исследования, база данных для хранения собранного материала, текущее состояние по заполнению базы данных и дальнейшие планы исследования.
- PDF
Борис Иванович Крючков, Алексей Анатольевич Карпов, Виталий Михайлович Усов

Перспективные подходы к применению сервисных роботов в области пилотируемой космонавтики

125-151

В статье описаны перспективные направления к использованию сервисных роботов (роботов-ассистентов) в области пилотируемой космонавтики. Проанализированы концептуальные подходы к организации внутренней среды сервисных роботов и внешней рабочей среды для совместной деятельности человека и сервисного робота.
- PDF
Олег Олегович Басов, Игорь Акрамович Саитов

Качество функционирования и эффективность полимодальных инфокоммуникационных систем

152-170

Отказ от традиционных принципов разделения передаваемой информации на услуги в пользу полимодального представления информации требует разработки новой конструктивной теории построения полимодальных инфокоммуникационных систем. Одним из ее краеугольных камней является количественная оценка степени достижения цели функционирования таких систем и доли участия в этом результате абонентских терминалов. В работе предложен подход к оцениванию эффективности полимодальных систем на основе показателя удельной себестоимости.
- PDF
Кирилл Александрович Батенков

Моделирование непрерывных каналов связи в форме операторов преобразования некоторых пространств

171-198

Предложена феноменологическая модель непрерывного канала связи. На ее основе разработаны модели линейного непрерывного канала связи в форме оператора преобразования метрических пространств с заданными базисами, а также частный случай, в котором базисом является система координатных функций интегрального канонического представления В.С. Пугачева.
- PDF
Дмитрий Константинович Левоневский, Роза Равильевна Фаткиева

Исследование комбинированных атак класса «отказ в обслуживании»

199-209

DDoS-атаки являются распространённым способом выведения сетевых информационных систем из строя, причём для увеличения эффективности злоумышленники часто используют комбинации из нескольких видов атак. В статье рассматриваются параметры сетевого трафика, позволяющие контролировать состояние системы и отслеживать вторжения. Для этих параметров определены пороговые значения и условия, позволяющие связать поведение параметров с типом атак, которым подвержена система.
- PDF
Роман Борисович Трегубов, Юрий Григорьевич Алексиков

Модель процесса мультиплексирования протокольных блоков данных в канале связи управления

210-220

Для повышения обоснованности принимаемых решений в ходе синтеза сетей обмена данными управления, обеспечивающих минимизацию затрат ресурсов пропускной способности линий передачи гетерогенных телекоммуникационных систем, необходимо учитывать особенности трафика, формируемого источниками управляющей информации. Предлагаемая в статье модель процесса мультиплексирования протокольных блоков данных в канале связи управления учитывает вариативность интенсивности поступления потока служебных сообщений от источников управляющей информации. Использование модифицированной формулы Энгсета позволяет обеспечить более рациональное распределение канального ресурса, необходимого для организации доставки протоколь-ных блоков данных.
- PDF

Выпуск 1 (32), 2014: Труды СПИИРАН

Весь выпуск

Статьи

Импакт-фактор

Разделы

Мы в сети

Обратная связь