Весь выпуск
Искусственный интеллект, инженерия данных и знаний
-
Предложен простой быстродействующий алгоритм полногеномного поиска ассоциаций для оценки основного и эпистатического эффекта влияния маркеров или единичных нуклеотидных полиморфизмов (SNP). Основная идея, лежащая в основе алгоритма, заключается в сравнении генотипов пар объектов популяции и сравнении соответствующих значений фенотипа. В алгоритме используется интуитивное предположение, что изменения аллелей, соответствующих важным SNP у пары объектов, приводят к большому различию значений фенотипа этих индивидуумов. Алгоритм основан на рассмотрении пар индивидуумов вместо SNP или пар SNP. Основным преимуществом алгоритма является то, что он слабо зависит от количества SNP в матрице генотипов. В основном он зависит от количества объектов, которое, как правило, очень мало по сравнению с количеством SNP. Другое важное преимущество алгоритма заключается в том, что он позволяет без дополнительных вычислений обнаруживать эпистатический эффект, рассматриваемый как взаимодействие генов. Алгоритм также может использоваться в случае, когда фенотип принимает только два значения (схема случай–контроль). Кроме того, алгоритм может быть достаточно просто расширен с анализа двоичной матрицы генотипов на случай количественного анализа экспрессии генов. Численные эксперименты с реальными наборами данных, состоящими из популяций удвоенных гаплоидных линий ячменя, иллюстрируют преимущество предлагаемого алгоритма по сравнению со стандартными алгоритмами полногеномного поиска ассоциаций с вычислительной точки зрения, особенно для обнаружения эпистатического эффекта. Пути для повышения эффективности предлагаемого алгоритма также обсуждаются в статье.
-
Отсутствие достаточного количества данных шепотной речи для обучения является серьезной проблемой для современных систем автоматического распознавания речи (АРР). Из-за большого акустического различия между обычной и шепотной речью АРР системы значительно снижают производительность при обработке шепота. В статье приведен анализ подходов к распознаванию нейтральной и шепотной речи на основе традиционных скрытых марковских моделей (СММ) для дикторозависимых (SD) и дикторонезависимых (SI) случаев. Особое внимание уделяется распознаванию шепотной речи с использованием нейтральной речи на этапе обучения (сценарий N/W). Система АРР разработана для распознавания изолированных слов из базы данных (Whi-Spe), включающей пары слов реально произнесенной речи нейтрально и шепотом. В сценарии N/W увеличение надежности достигается с применением предлагаемого частотного преобразования, изначально разработанного для сжатия и декомпрессии речевого сигнала в цифровых телекоммуникационных системах. Вместе с тем сохраняются хорошие показатели в распознавании нейтральной речи. По сравнению с базовой моделью распознавания с применением Мел-частотных кепстральных коэффициентов (MFCC) точность распознавания слов с использованием кепстральных коэффициентов, полученных с помощью предложенного частотного деформирования (обозначаемого как μFCC), улучшена на 7,36% (SD) и 3,44% (SI) в абсолютных значениях. Кроме того, F-мера (гармоническое среднее значение точности и полноты) для векторов признаков μFCC увеличивается на 6,90% (SD) и 3,59 %(SI). Статистические тесты подтверждают значимость достигнутого улучшения точности распознавания.
-
Представлены последние усовершенствования в распознавании сербской речи, достигнутые с использованием современных глубоких нейронных сетей, основанных на применении дискриминативного обучения на последовательностях для акустического моделирования. Описываются несколько вариантов новой системы распознавания слитной речи с большим словарем (LVCSR), которая основанна на обучении по критерию максимальной взаимной информации (LF-MMI) без использования решетки. Параметры системы варьировались таким образом, чтобы достичь наименьших значений ошибки распознавания слов (WER) и ошибки распознавания символов (CER) при использовании самой большой существующей речевой базы данных сербского языка и наилучшей n-граммной языковой модели общего назначения. В дополнение к настройке самой нейронной сети (числа слоев, сложности, объединения элементов слоя и т.д.) для получения наилучших результатов были исследованы и другие ориентированные на конкретный язык способы оптимизации, такие как использование акценто-зависимых моделей гласных фонем и их сочетание с тональными признаками. Также была исследована настройка речевой базы данных, которая включает в себя искусственное расширение базы данных путем изменения скорости речевых высказываний и масштабирование уровня громкости для учета вариативности речи. Результаты экспериментов показали, что 8-слойная глубокая нейронная сеть с 625 нейронами в каждом слое работает в данных условиях работает лучше других сетей без необходимости увеличения речевой базы данных или регулировки громкости. Кроме того, тональные признаки в сочетании с использованием акценто-зависимых моделей гласных обеспечивают наилучшие показатели точности во всех экспериментах. Ключевые слова: глубокая нейронная сеть, автоматическое распознавание речи, обучение на последовательностях, LF-MMI, акценты, основной тон, сербский.
-
Приведен аналитический обзор разновидностей интегральных (end-to-end) систем для распознавания речи, методов их построения, обучения и оптимизации. Рассмотрены варианты моделей на основе коннекционной временной классификации (CTC) в качестве функции потерь для нейронной сети, модели на основе механизма внимания и шифратор-дешифратор моделей. Также рассмотрены нейронные сети, построенные с использованием условных случайных полей (CRF), которые являются обобщением скрытых марковских моделей, что позволяет исправить многие недостатки стандартных гибридных систем распознавания речи, например, предположение о том, что элементы входных последовательностей звуков речи являются независимыми случайными величинами. Также описаны возможности интеграции с языковыми моделями на этапе декодирования, демонстрирующие существенное сокращение ошибки распознавания для интеграционных моделей. Описаны различные модификации и улучшения стандартных интегральных архитектур систем распознавания речи, как, например, обобщение коннекционной классификации и использовании регуляризации в моделях, основанных на механизмах внимания. Обзор исследований, проводимых в данной предметной области, показывает, что интегральные системы распознавания речи позволяют достичь результатов, сравнимых с результатами стандартных систем, использующих скрытые марковские модели, но с применением более простой конфигурации и быстрой работой системы распознавания как при обучении, так и при декодировании. Рассмотрены наиболее популярные и развивающиеся библиотеки и инструментарии для построения интегральных систем распознавания речи, такие как TensorFlow, Eesen, Kaldi и другие. Проведено сравнение описанных инструментариев по критериям простоты и доступности их использования для реализации интегральных систем распознавания речи.
-
Современные стандарты кодирования видеоданных имеют высокую эффективность кодирования, но скорость кодирования может быть улучшена для удовлетворения растущих потребностей мультимедийных приложений. В статье рассматриваются методы и алгоритмы энтропийного кодирования в стандартах кодирования видеоданных H.264/AVC и H.265/HEVC. Контекстно-зависимое адаптивное кодирование с переменной длиной кодового слова CAVLC (Context-based Adaptive Variable Length) для стандарта H.264/AVC изначально предназначалось для ко-дирования с потерями и как таковое не давало адекватной производительности для кодирования без потерь. Контекстно-зависимое адаптивное бинарное арифметиче-ское кодирование CABAC (Context-Adaptive Binary Arithmetic Coding) — это метод энтропийного кодирования, впервые введенный в H.264/AVC и используемый в стандарте H.265/HEVC. Хотя он обеспечивает высокую эффективность кодирования, зависимости данных в H.264/AVC CABAC затрудняют распараллеливание и, таким образом, ограничивают его пропускную способность. Соответственно, во время стандартизации энтропийного кодирования для HEVC были рассмотрены как эффективность кодирования, так и пропускная способность. На основе анализа их достоинств и недостатков предложен метод энтропийного кодирования с последующим применением нумерационного иерархического кодирования. Он состоит из алгоритма САВАС и алгоритма нумерационного кодирования с применением иерархического подхода. Предложенный метод протестирован в среде разработки Visual C++ на различных тестовых видеопоследовательностях. Результаты экспериментов показали большую эффективность кодирования мультимедийных данных (уменьшает в среднем до 15% объема памяти хранения по сравнению с традиционным методом CABAC), но при этом метод требует большее время кодирования (примерно в два раза). Предложенный метод можно рекомендовать для применения в телекоммуни-кационных системах для решения задач хранения, передачи и обработки мультимедийных данных, где в первую очередь требуется большая степень сжатия.
Цифровые информационно-телекоммуникационные технологии
-
Анализ и синтез сетей связи, основанный на критериях устойчивости, предполагает рассмотрение простых и удобных для понимания показателей, слабо привязанных к классическому понятию вероятности выхода объекта из состояния работоспособности. Подобные детерминированные показатели устойчивости (связность, пара связностей, линейный функционал связности, число остовых деревьев) позволяют, пусть и весьма приближенно, решать целый комплекс задач, связанных с оценкой надежности и живучести сложноразветвленных сетей связи. Вследствие достаточно простого аналитического вида линейного функционала связности для синтеза структур оказывается возможным использовать аналитический метод, представленный в работе. При этом общая постановка задачи для синтеза связных графов формулируется как поиск графа с заданным числом ребер, вершин и с фиксированными значениями их весовых коэффициентов, имеющего максимальное значение линейного функционала связности. В целом для детерминированных показателей характерен и достаточно серьезный недостаток, проявляющийся в невозможности учета особенностей функционирования отдельных линий связи. Кроме того, для структур общего типа, где выражение линейного функционала не сводится к аналитическому виду, конструктивность такого показателя связности структур сетей связи (графов) оказывается менее выраженной. В теоретических исследованиях относительно структур общего типа линейный функционал слабо коррелирует с уже существующими понятиями (например, с реберной связностью). Поэтому, несмотря на то, что он, как показатель связности (надежности), может быть применен для оценки любой структуры, при исследовании структур общего типа более рационально использовать такие показатели связности, которые все же каким-либо образом согласовывались с понятиями, используемыми в теории графов.
-
Работа посвящена рациональному выбору параметров формирования шумовых маскирующих и структурных помех в целях их совместного применения для защиты конфиденциальной информации от утечки по каналу побочных электромагнитных излучений средств отображения информации, использующих стандарт Digital Visual Interface (DVI). В работе отражены особенности имитационного моделирования воздействия шумовых и структурных помех системы активного зашумления на квазиоптимальный приемник технического средства перехвата информации. Представлен порядок образования импульсных компонент побочных электромагнитных излучений, возникающих при передаче видеоданных по стандарту DVI, а также отдельных составляющих структурных помех. Отмечено, что именно в режиме вывода информации на экран монитора возникают наиболее широкополосные и многократно повторяющиеся побочные электромагнитные излучения, совпадающие с частотой кадровой развертки устройств видеотракта. Задан показатель оценивания результативности применения структурных помех при решении задачи защиты информации от утечки по каналу побочных электромагнитных излучений — вероятность ошибочного распознавания цвета блока графической информации. Приведены зависимости изменения показателя результативности от количества кадров изображения, накапливаемых в техническом средстве перехвата побочных электромагнитных излучений, и показана его связь с отношением сигнал/шум по амплитуде на входе технического средства перехвата. По результатам имитационного моделирования проведено оценивание результативности применения структурных помех в системах активного зашумления. Выявлена целесообразность использования структурных помех при защите конфиденциальной информации от утечки по каналу побочных электромагнитных излучений средств отображения информации со стандартом DVI. Показана возможность снижения суммарной мощности излучения средства активного зашумления по сравнению с традиционно используемыми шумовыми маскирующими помехами.
Робототехника, автоматизация и системы управления
-
Решается задача слежения для нелинейного объекта по выходу в условиях внешних ограниченных возмущений, недоступных для измерения. Объект управления описывается гладкими функциями, для которых может быть определена их относительная динамическая степень. Функция возмущений удовлетворяет условию Липшица. Использованы стандартные модельные преобразования для перехода к описанию динамики объекта в ошибках. При синтезе алгоритма используется итеративная процедура с количеством шагов, равных показателю относительной динамической степени объекта. Предложенная система управления представляет собой робастную модификацию алгоритма обратного обхода интегратора и сохраняет его структуру. Ключевые изменения в алгоритме состоят в использовании метода вспомогательного контура для оценки и компенсации сигнала возмущения, а также в модельных преобразованиях, позволяющих уменьшить количество фильтров в системе управления. Метод вспомогательного контура дает возможность на каждом шаге синтеза алгоритма ввести в рассмотрение модель желаемой динамики ошибок слежения, что является основой для оценки величины возмущающего воздействия. Для оценки неизвестных сигналов и их производных используются известные наблюдатели с сильной обратной связью. Доказана сходимость ошибок слежения и наблюдения в замкнутой системе за конечное время с настраиваемой точностью, зависящей от величины возмущающих воздействий и параметров регулятора. Эффективность алгоритма подтверждена результатами компьютерного моделирования. Приведены графики работы предложенного метода и ближайшего аналога в режимах стабилизации и слежения, и представлены количественные показатели, позволяющие оценить качество регулирования. Практическая применимость метода рассмотрена на примере задачи управления лабораторным стендом «Twin Rotor MIMO System», который воспроизводит динамику винтокрылого летательного аппарата.
-
Предложен динамический метод поиска антропогенных объектов в толще морского дна с использованием группы автономных необитаемых подводных аппаратов. В отличие от статического метода, при котором все аппараты с геофонами на борту одновременно заглубляются и прикрепляются ко дну, а после окончания сеанса поиска одновременно всплывают, предложенный метод обеспечивает непрерывность ведения поиска за счет динамического поведения группы аппаратов. В то время как основная часть аппаратов с геофонами занята прослушиванием отраженного сигнала, другая часть аппаратов перемещается далее по своему маршруту. Таким образом достигается непрерывность ведения сейсморазведки в заданном районе и существенное сокращение времени на ее проведение. Предложенный метод представляет собой дальнейшее развитие методов поиска антропогенных объектов на морском дне с использованием необитаемых аппаратов. Приведен алгоритм согласованного поведения аппаратов с геофонами на борту и подводного аппарата, перемещающего излучатель. Определено взаимное положения группы и излучателя, обеспечивающее наиболее эффективное ведение сейсморазведки антропогенных объектов. Определен показатель эффективности — всеазимуталность прихода отраженных от толщи морского дна сигналов, и приведен алгоритм его вычисления. Указан порядок решения задачи определения параметров метода поиска. Определено необходимое количество аппаратов в группе с учетом параметров движения аппаратов и излучателя. Описана математическая модель функционирования системы «излучатель — геофоны». Проведены численные эксперименты по определению оптимальных параметров ведения сейсморазведки антропогенных объектов. Результаты моделирования позволили оценить выигрыш от использования предло-женного метода, определить его оптимальные параметры и разработать рекомендации по его использованию для поиска антропогенных объектов на дне Мирового океана.