Весь выпуск
Статьи
-
В статье предлагается решение задачи изменения частоты основного тона речевого сигнала. Необходимость решения данной задачи возникает во многих речевых приложениях таких как конверсия голоса, коррекция акцента, обеспечение конфиденциальности диктора и др. Разработанная схема обработки вокализованной части речевого сигнала основывается на гармонической модели с нестационарными (изменяющимися в каждый момент времени) параметрами. Для повышения частотного разрешения модели оценка параметров выполнятся при помощи узкополосной фильтрации в искривленном масштабе времени, согласованном с контуром мгновенной частоты основного тона. На основании субъективной оценки результатов показано, что разработанный способ обес-печивает высокую натуральность и разборчивость синтезированной речи и может применяться как в широкополосных так и в узкополосных каналах связи с различными стандартами кодирования (в том числе с кодеками G.711 и GSM).
-
Стремление к повышению качества кодирования обусловило необходимость более глубокого анализа характеристик речевого сигнала и синтеза его прецизионных моделей. В работе предложен научно-методический инструментарий оценки периода основного тона речевого сигнала и разделения его джиттера на периодическую и случайную компоненты. Результаты его использования позволили улучшить качество субъективного восприятия речевого сигнала за счет уточнения модели формирования значений периода основного тона и установить наличие корреляции периодического джиттера с пульсом говорящего человека.
-
В настоящей статье предлагается оптимизация вычисления одновременной маскировки речевого сигнала для реализации в задачах реального времени. Показана трудоемкость циклической свертки для итерационного алгоритма Тоома-Кука длины 4 и алгоритма на основе БПФ. Делается вывод об эффективности предлагаемых решений по вычислительной сложности и по объемам занимаемой память.
-
Рассматривается возможность определения в слове ударного слога путем изучения особенностей формантной картины. На основе анализа массива логатомов выявляются особенности формантной картины, причем сравниваются энергетические характеристики отдельных формант. Опираясь на допущение об оптимальности способа формирования диктором речевой посылки, спектр гласных разбивается по психоакустической шкале эрбов. Для удобства обработки материала полученный массив частичных дисперсий кодифицируется. Для выявления признака ударности полученный массив кодов разбивается по признаку гласной и по признаку ударности. Сравнение частичных массивов дает возможность подтвердить существование исследуемого признака ударности и выявить фонетические особенности этого явления, существующие в формантной картине. Сделан вывод о возможности применения признака ударности по особенностям формантной картины гласной как эффективно дополняющего определение ударности слога в слове по иным общепринятым признакам.
-
Настоящая работа посвящена исследованию темпоральных характеристик гласных в словах, расположенных на концах крупных смысловых единиц — синтагм и фраз. Исследование выполняется на материале корпуса CORPRES, содержащего записи чтения текстов профессиональными дикторами; общее время звучания проанализированного материала составляет около 12 часов. Результаты анализа значений нормализованной длительности гласных показали, что в словах, расположенных на конце синтагмы или фразы, удлиняется ударный гласный, а также заударный, если он находится в абсолютном конце слова; это верно даже в тех случаях, когда фразовое ударение реализуется не на последнем слове синтагмы. На степень удлинения влияет наличие последующей паузы, «глубина» границы, наличие фразового ударения на последнем слове синтагмы и тип интонационного контура. Кроме того, описаны особенности темпорального оформления незавершенности по типу ИК-3 и логического ударения по типу ИК-2 в позиции перед границей синтагмы.
-
В статье представлена схема построения мультиголосового синтезатора речи, основанная на использовании синергетического эффекта от интеграции системы синтеза речи по тексту и конверсии голоса. Такая организация даёт возможность одновременно выполнять действия синтеза и модификации речевого сигнала на основе комплексного подхода, позволяя снизить количество ошибок и артефактов, которые влияют на качество речевого сигнала. Применение данного подхода обеспечивает реализацию функции настройки синтезатора речи на голос целевого диктора без существенных затрат трудоёмкости на обучение речевой базы данных, для добавления новых голосов.
-
Создана модель мультимодальной сенсорной среды «INFANT.MAVS», включающая две базы стимулов разной перцептивной сложности – простых (визуальных, звуковых, тактильных и графических) и комплексных, синтезированных на основе сочетания простых. Программное обеспечение модели включает компонент управления созданными базами данных и саму базу данных. Компонент управления разработан на языке Microsoft Visual Basic v.6.0 и предназначен для работы под управлением операционных систем семейства Windows (Windows XP, Windows Vista, Windows 7). Программное обеспечение базы делает работу с моделью доступной и удобной для любого пользователя
-
В настоящей статье рассмотрены этапы исследования по оценке разборчивости и качества речи, проводимого совместно НИИ онкологии СО РАМН и Томским государственным университетом систем управления и радиоэлектроники. Рассмотрено программное обеспечение для сбора материала для исследования, база данных для хранения собранного материала, текущее состояние по заполнению базы данных и дальнейшие планы исследования.
-
В статье описаны перспективные направления к использованию сервисных роботов (роботов-ассистентов) в области пилотируемой космонавтики. Проанализированы концептуальные подходы к организации внутренней среды сервисных роботов и внешней рабочей среды для совместной деятельности человека и сервисного робота.
-
Отказ от традиционных принципов разделения передаваемой информации на услуги в пользу полимодального представления информации требует разработки новой конструктивной теории построения полимодальных инфокоммуникационных систем. Одним из ее краеугольных камней является количественная оценка степени достижения цели функционирования таких систем и доли участия в этом результате абонентских терминалов. В работе предложен подход к оцениванию эффективности полимодальных систем на основе показателя удельной себестоимости.
-
Предложена феноменологическая модель непрерывного канала связи. На ее основе разработаны модели линейного непрерывного канала связи в форме оператора преобразования метрических пространств с заданными базисами, а также частный случай, в котором базисом является система координатных функций интегрального канонического представления В.С. Пугачева.
-
DDoS-атаки являются распространённым способом выведения сетевых информационных систем из строя, причём для увеличения эффективности злоумышленники часто используют комбинации из нескольких видов атак. В статье рассматриваются параметры сетевого трафика, позволяющие контролировать состояние системы и отслеживать вторжения. Для этих параметров определены пороговые значения и условия, позволяющие связать поведение параметров с типом атак, которым подвержена система.
-
Для повышения обоснованности принимаемых решений в ходе синтеза сетей обмена данными управления, обеспечивающих минимизацию затрат ресурсов пропускной способности линий передачи гетерогенных телекоммуникационных систем, необходимо учитывать особенности трафика, формируемого источниками управляющей информации. Предлагаемая в статье модель процесса мультиплексирования протокольных блоков данных в канале связи управления учитывает вариативность интенсивности поступления потока служебных сообщений от источников управляющей информации. Использование модифицированной формулы Энгсета позволяет обеспечить более рациональное распределение канального ресурса, необходимого для организации доставки протоколь-ных блоков данных.