Последовательности, в том числе последовательности векторов, применимы в любых предметных областях. Последовательности скалярных значений или векторов (ряды) могут быть порождены последовательностями более высокого порядка, например: последовательностями состояний, элементов сложных объектов. Работа посвящена применению усовершенствованного trie-дерева в задаче классификации ряда на множестве последовательностей элементов сложных объектов методом динамического программирования. Рассмотрены сферы применения динамического программирования. Показано, что динамическое программирование приспособлено к многошаговым операциям вычисления аддитивных (мультипликативных) мер подобия / различия. Утверждается, что усовершенствованное trie-дерево применимо в задаче классификации ряда на множестве последовательностей элементов сложных объектов методом динамического программирования при использовании таких мер подобия / различия. Выполнен анализ иерархических представлений множеств последовательностей. Описаны преимущества, которые обеспечивает усовершенствованное trie-дерево по сравнению с традиционными представлениями других сильноветвящихся деревьев. Разработано формальное описание усовершенствованного trie-дерева. Дано пояснение ранее полученным данным о существенном приросте скорости операций добавления и удаления последовательностей в усовершенствованном trie-дереве относительно использования массива с индексной таблицей (24 и 380 раз, соответственно). Выполнена постановка задачи пофонемного распознавания речевых команд как задачи классификации ряда на множестве последовательностей элементов сложных объектов и изложен метод её решения. Разработан метод классификации ряда на множестве последовательностей элементов сложных объектов с применением усовершенствованного trie-дерева. Он исследован на примере пофонемного распознавания с иерархическим представлением словаря классов речевых команд. В этом методе распознавание речевых команд выполняют в процессе обхода усовершенствованного trie-дерева, хранящего множество транскрипций речевых команд – последовательностей транскрипционных символов, которые обозначают классы звуков. Численные исследования показали, что классификация ряда как последовательности элементов сложных объектов повышает частоту правильной классификации по сравнению с классификацией ряда на множестве рядов, а применение усовершенствованного trie-дерева сокращает затраты времени на классификацию.
Несмотря на широкое применение во многих областях, точная и эффективная идентификация деятельности человека продолжает оставаться интересной исследовательской проблемой в области компьютерного зрения. В настоящее время проводится много исследований по таким темам, как распознавание активности пешеходов и способы распознавания движений людей с использованием данных глубины, трехмерных скелетных данных, данных неподвижных изображений или стратегий, использующих пространственно-временные точки интереса. Это исследование направлено на изучение и оценку подходов DL для обнаружения человеческой активности на видео. Основное внимание было уделено нескольким структурам для обнаружения действий человека, которые используют DL в качестве своей основной стратегии. В зависимости от приложения, включая идентификацию лиц, идентификацию эмоций, идентификацию действий и идентификацию аномалий, прогнозы появления людей разделены на четыре различные подкатегории. В литературе было проведено несколько исследований, основанных на этих распознаваниях для прогнозирования поведения и активности человека в приложениях видеонаблюдения. Сравнивается современное состояние методов DL для четырех различных приложений. В этой статье также представлены области применения, научные проблемы и потенциальные цели в области распознавания человеческого поведения и активности на основе DL.
Целью работы является разработка способа и алгоритма распознавания объектов окружающего пространства, качество работы которого не будет зависеть от числа типов объектов реального мира, которые он может распознавать. Для этого поставлены и решены задачи распознавания множества элементарных геометрических объектов (признаков-примитивов), определения отношений между ними и поиска соответствий между найденными признаками-примитивами и отношениями и заданными шаблонами–описаниями сложносоставных и простых объектов реального мира. Для распознавания элементарных геометрических фигур применена нейронная сеть свёрточного типа. Для её обучения использовались искусственно сгенерированные изображения с элементарными геометрическими фигурами (3D примитивами), которые располагались на сцене случайным образом с различными свойствами их поверхностей и текстурами. В результате обучения была получена нейронная сеть, способная распознавать объекты примитивы. Сформировано множество отношений, необходимое для распознавания объектов, которые могут быть представлены как составные из признаков-примитивов. В предложенном способе распознавания количество классов для поиска ограничивается набором признаков-примитивов. Проверка на фотографиях реальных объектов показала способность распознавать объекты реального мира в независимости от их типа (в случаях, когда возможны их разные модели и модификации) и материала изготовления, а также способность успешно решать задачи поиска объектов в условиях частичного перекрытия объектов и их ограниченной видимости и частичной деформации. В работе рассмотрен пример с распознаванием светильника уличного освещения. Пример показывает способность алгоритма не только выявлять объект на изображении, но и определять ориентацию положения его составляющих. Предложенное решение может быть использовано в задачах манипуляции объектами внешнего мира робототехническими системами.
Рассматривается задача определения текущего положения пневматических исполнительных механизмов. Решение поставленной задачи достигается введением системы технического зрения, позволяющей на основе метода нечеткой кластеризации определять в режиме реального времени координаты центра цветовой метки, установленной на исполнительных механизмах мехатронного комплекса и позицию её смещения. Целью работы является повышение точности распознавания цветовой метки для прецизионного позиционирования исполнительных механизмов мехатронного комплекса и повышение быстродействия дефаззификатора за счет распараллеливания вычислительных процедур в нем. Интеллектуализация процесса распознавания цветового оттенка производится на основе нечёткой кластеризации. Сначала строится нечеткая модель, позволяющая в зависимости от входных параметров интенсивности цвета по каждому из каналов RGB и составляющей цветового тона выделять на изображении заданный цвет. Затем осуществляется бинаризация цветного изображения и подавление шумов. При моделировании нечеткой системы авторами были применены две модели дефаззификации: на основе метода центра тяжести и на основе отношения площадей. Модель, реализованная на основе метода отношения площадей, позволяет убрать зоны нечувствительности, которые присутствуют в модели центра тяжести. Метод на основе отношения площадей определяет принадлежность пикселей к заданному цветовому тону, и после этого расположение цветовой метки в кадре изображения определяется на основе определения центра тяжести распознанных пикселей цветовой метки. В последующем, при перемещении исполнительного механизма в продольном направлении, система технического зрения определяет расположение цветовой метки в новом кадре. Разность положений цветовой метки на исходном и текущем изображениях позволяет определить расстояние смещения цветовой метки. С целью исследования влияния шума на точность распознавания были использованы цифровые фильтры: медианный, Гауссовский, матричный и биноминальный. Анализ точности данных фильтров показал, что лучший результат получен при использовании Гауссовского фильтра. Оценка производилась на основе показателя сигнал-шум. Реализация математической модели распознавания цветовой метки выполнена в среде Matlab/Simulink. Экспериментальные исследования работоспособности системы технического зрения с предложенной нечёткой моделью кластеризации проводились на пневматическом мехатронном комплексе. В ходе экспериментов на корпусе цилиндра закреплялась цветовая метка, после чего цилиндр перемещался по направляющим в продольном направлении. В процессе перемещения выполнялась видеофиксация и распознавание изображений. Для определения точности распознавания цветовой метки рассчитаны коэффициенты PSNR и RMSE, которые составили 38,21 и 3,14 соответственно. Точность определения смещения на основе разработанной модели распознавания цветовых меток достигла 99,7%. Быстродействие дефаззификатора увеличилось до 590 нс.
Отсутствие достаточного количества данных шепотной речи для обучения является серьезной проблемой для современных систем автоматического распознавания речи (АРР). Из-за большого акустического различия между обычной и шепотной речью АРР системы значительно снижают производительность при обработке шепота.
В статье приведен анализ подходов к распознаванию нейтральной и шепотной речи на основе традиционных скрытых марковских моделей (СММ) для дикторозависимых (SD) и дикторонезависимых (SI) случаев. Особое внимание уделяется распознаванию шепотной речи с использованием нейтральной речи на этапе обучения (сценарий N/W). Система АРР разработана для распознавания изолированных слов из базы данных (Whi-Spe), включающей пары слов реально произнесенной речи нейтрально и шепотом. В сценарии N/W увеличение надежности достигается с применением предлагаемого частотного преобразования, изначально разработанного для сжатия и декомпрессии речевого сигнала в цифровых телекоммуникационных системах. Вместе с тем сохраняются хорошие показатели в распознавании нейтральной речи.
По сравнению с базовой моделью распознавания с применением Мел-частотных кепстральных коэффициентов (MFCC) точность распознавания слов с использованием кепстральных коэффициентов, полученных с помощью предложенного частотного деформирования (обозначаемого как μFCC), улучшена на 7,36% (SD) и 3,44% (SI) в абсолютных значениях. Кроме того, F-мера (гармоническое среднее значение точности и полноты) для векторов признаков μFCC увеличивается на 6,90% (SD) и 3,59 %(SI). Статистические тесты подтверждают значимость достигнутого улучшения точности распознавания.
В статье рассматриваются некоторые подходы к распознаванию параметров пороговых k-значных функций, которые могут быть использованы для построения узлов обработки и защиты информации. Основное внимание сосредоточено на проблеме доказательства принадлежности некоторой k-значной функции к классу пороговых. Для решения этого вопроса предлагается использовать вводимые коэффициенты роста и возрастания, с помощью которых процедурно аппроксимируются коэффициенты линейной формы k-значной пороговой функции. На ряду с предложенным аналитическим подходом в статье рассматривается алгоритмический метод, основанный на сведении задачи нахождения порогового представления k-значной функции к системе линейных неравенств, для решения которой применяется модифицированный метод эллипсоидов Хачияна. На основании экспериментов проводится сравнительный анализ предложенных методов.
Статья посвящена описанию разработанной в Институте проблем искусственного интеллекта НАН и МОН Украины (Донецк) технологии распознавания речи, основанной на следующих основных этапах обработки: сегментация с использованием численного аналога полной вариации; создание дифонной базы; DTW-распознавание слов по эталонам, автоматически создаваемым из эталонов дифонов. Разработанная технология применима к распознаванию сверхбольших словарей, а также при разработке текстовых редакторов с голосовым вводом.
Статья посвящена использованию современных компьютерных речевых технологий в системах массового обслуживания населения. Рассматриваются проблемы разработки эффективного и удобного речевого интерфейса, методы обнаружения и коррекции ошибок распознавания, модели для сравнительного анализа сценариев речевого диалога, математические модели для вычисления характеристик обслуживания заявок и оптимизации функционирования контакт центров с сервисами самообслуживания на базе распознавания речи.
Статья посвящена получению оценок числа шагов логико-предметных алгоритмов распознавания сложных изображений на экране дисплея. Доказана полиномиальность задачи выделения и распознавания эталонного изображения на сложной сцене. Для задачи выделения и распознавания объекта из класса, описание которого содержит только характерные признаки этого класса, доказана её принадлежность классу. Для уменьшения числа шагов работы алгоритма предложено понятие размытого изображения. Рассмотрена задача инвариантного (относительно изменения масштаба) распознавания изображения
Приводится краткое описание новой информационной технологии на базе анализа фрактальной динамики коротких отрезков электроэнцефалограмм и результатов компьютерного эксперимента по автоматической классификации типов патологии. Обсуждаются также результаты корреляционного анализа предложенных информационных фрактальных характеристик и клинических, нейрофизиологических и интегральных нейропсихологических показателей работы головного мозга у обследованных пациентов.
Предложен способ обнаружения спасательных плотов и шлюпок в акватории морей и океанов после кораблекрушений, основанный на распознавании аномалий на обрабатываемых изображениях, что увеличивает вероятность распознавания объектов мониторинга. Обоснован подход к решению такой задачи. Представлена постановка задачи распознавания объектов с позиций бинарной классификации при обнаружении аномалий. Получено аналитическое выражение для алгоритма принятия решения. Рассмотрена возможность формализации матриц изображений в виде гистограмм распределений интенсивности цветности (яркости). Оценена контрастность признакового пространства на их основе. Предложено повысить контрастность признаковых пространств за счет вторичной обработки гистограмм распределений в базисе кратномасштабной вейвлет-декомпозиции. Рассмотрена возможность реализации вейвлет-преобразований на основе функций Хаара и вейвлетов Гаусса 1-го и 2-го порядков. Обоснован механизм формирования вторичных векторов признаков из трехмерных вейвлет-преобразований, путем усреднения их коэффициентов по оси временного сдвига. Показано, что при одинаковой размерности гистограмм распределения яркости с вновь формируемыми векторами признаков, последние обеспечивают более высокую контрастность признаковых пространств. Рекомендовано для формализации изображений в формате jpeg использовать вейвлет Гаусса 2-го порядка, обеспечивающий при прочих равных условиях большую величину различий для изображений, содержащих аномалии. Разработан подход к вероятностной оценке алгоритма автоматического распознавания изображений. Получено аналитическое выражение и обоснованы его составляющие элементы. Приведены графические зависимости вероятности правильного обнаружения (распознавания) аномалий, в зависимости от размеров по отношению к общей площади кадра и дисперсии подстилающего фона. Представлены результаты эксперимента по распознаванию изображений со спасательной шлюпкой в акватории океана. Определены направления дальнейших исследований.
В статье рассматривается проблема распознавания сентимента и эмоций пользователей в русскоязычных текстовых транскрипциях речи с использованием словарных методов и машинного перевода. Количество имеющихся информационных ресурсов для анализа сентимента текстовых сообщений на русском языке очень ограничено, что существенно затрудняет применение базовых методов анализа сентимента, а именно, предобработки текстов, векторизации с помощью тональных словарей, традиционных классификаторов. Для решения этой проблемы в статье вводится новый метод на основе автоматического машинного перевода русскоязычных текстов на английский язык. Частичный перевод предполагает перевод отдельных лексем, не включенных в русскоязычные тональные словари, тогда как полный перевод подразумевает перевод всего текста целиком. Переведенный текст анализируется с использованием различных англоязычных тональных словарей. Экспериментальные исследования для решения задачи распознавания сентимента и эмоций были проведены на текстовых транскрипциях многомодального русскоязычного корпуса RAMAS, извлеченных из аудиоданных экспертным путем и автоматически с использованием системы распознавания речи. В результате применения методов машинного перевода достигается значение взвешенной F-меры распознавания семи классов эмоций 31,12 % и 23,74 %, и трех классов сентимента 75,37 % и 71,60 % для экспертных и автоматических транскрипций русскоязычной речи корпуса RAMAS, соответственно. Также в ходе экспериментов было выявлено, что использование статистических векторов в качестве метода преобразования текстовых данных позволяет достичь значение показателя взвешенной F-меры на 1-5 % выше по сравнению с использованием конкатенированного (статистического и тонального) вектора. Таким образом, эксперименты показывают, что объединение всех англоязычных тональных словарей позволяет повысить точность распознавания сентимента и эмоций в текстовых данных. В статье также исследуется корреляция между длиной вектора текстовых данных и его репрезентативностью. По результатам экспериментов можно сделать вывод, что использование лемматизации для нормализации слов текстовых транскрипций речи позволяет достичь большей точности распознавания сентимента по сравнению со стеммингом. Использование предложенных методов с полным и частичным машинным переводом позволяет повысить точность распознавания сентимента и эмоций на 0,65–9,76 % по показателю взвешенной F-меры по сравнению с базовым методом распознавания сентимента и эмоций.
Точность систем автоматического распознавания спонтанной речи далека от тех, которые демонстрируют системы распознавания подготовленной речи. Обусловлено это тем, что спонтанная речь не характеризуется той плавностью и отсутствием сбоев, что подготовленная. Спонтанная речь варьируется от диктора к диктору: отличное произношение фонем, наличие пауз, речевых сбоев и экстралингвистических компонентов (смех, кашель, чихание, и цыканье при выражении эмоции раздражения и др.) прерывают плавность вербальной речи. Экстралингвистические компоненты очень часто несут важную паралингвистическую информацию, поэтому для систем автоматического распознавания спонтанной речи важно распознавать подобные явления в потоке речи. В данном обзоре проанализированы научные работы, посвященные проблеме автоматического анализа экстралингвистических компонентов спонтанной речи. Рассмотрены и описаны как отдельные методы и подходы по распознаванию экстралингвистических компонентов в потоке речи, так и работы, связанные с многоклассовой классификацией изолированно записанных экстралингвистических компонентов. Наиболее распространенными методами анализа экстралингвистических компонентов являются нейронные сети, такие как глубокие нейронные сети и сети на основе моделей-трансформеров. Приведены основные понятия, относящиеся к термину экстралингвистические компоненты, предложена оригинальная систематизация экстралингвистических компонентов в русском языке, описаны корпуса и базы данных звучащей разговорной речи как на русском, так и на других языках, также приведены наборы данных экстралингвистических компонентов, записанных изолированно. Точность распознавания экстралингвистических компонентов повышается при соблюдении следующих условия работы с речевым сигналом: предобработка аудиосигналов вокализаций показала повышение точности классификации отдельно записанных экстралингвистических компонентов; учет контекста (анализ нескольких фреймов речевого сигнала) и использовании фильтров для сглаживания временных рядов после извлечения векторов признаков показали повышение точности при пофреймовом анализе речевого сигнала со спонтанной речью.
Представлено сравнение дискретных скрытых марковских моделей и свёрточных нейронных сетей для классификации изображений. После разбивки изображений на части целесообразно получить векторы, которые представляют локальные визуальные структуры, одновременно определяющие изображения глобально через пространственную последовательность. С использованием методов кластеризации создается алфавит из указанных векторов, а затем конструируются последовательности символов, которые описывают статистические модели, соответствующие классам изображений. Скрытые марковские модели в сочетании с методами квантования могут обрабатывать шум и искажения в наблюдениях для решения проблем компьютерного зрения, таких как классификация изображений с изменением освещения и перспективы.
Протестированы архитектуры, основанные на трех, шести и девяти скрытых состояниях, в пользу скорости обнаружения и низкого использования памяти. Также были протестированы два типа ансамблевых моделей. Точность предлагаемого метода была оценена с помощью общедоступных данных; полученные результаты оказались сравнимы с известными оценками при использовании тонко настроенных свёрточных нейронных сетей, но требовали значительно меньших вычислительных ресурсов. Результат представляет интерес при разработке мобильных роботов с вычислительными устройствами, имеющими ограниченное время автономной работы, но требующими способности обнаруживать и добавлять новые объекты в свои системы классификации.
Предлагается разделенный на несколько модулей алгоритм для создания изображений полнотекстовых документов. Эти изображения можно использовать для обучения, тестирования и оценки моделей оптического распознавания символов (ОПР). Алгоритм является модульным, отдельные части могут быть изменены и настроены для создания желаемых изображений. Описывается метод получения фоновых изображений бумаги из уже оцифрованных документов. Для этого используется новый, основанный на вариационном автоэнкодере подход к обучению генеративной модели. Эти фоны позволяют сразу же сгенерировать такие же фоновые изображения, как те, на которых производилось обучение. Для получения правдоподобного эффекта старения в модуле печати текста используются большие текстовые блоки, типы шрифтов и вариативность изменения яркости символов. Поддерживаются несколько типов макетов страницы. Система генерирует подробную структурированную аннотацию искусственного изображения. Для сравнения реальных изображений с искусственно созданными используется программа Тессеракт ОПР. Точность распознавания приблизительно схожа, что указывает на правильность сгенерированных искусственных изображений. Более того, допущенные системой ОПР ошибки в обоих случаях очень похожи. На основе сгенерированных изображений была обучена архитектура сверточная кодер-декодер нейронная сеть полностью для семантической сегментации отдельных символов. Благодаря этой архитектуре достигнута точность распознавания 99,28% в тестовом наборе синтетических документов.
Используя алгоритмы вычислительной топологии, рассмотрены методы сравнения изображений объектов, которые представлены множествами точек. Предложены алгоритмы построения множеств вещественных баркодов для сравнения изображений объектов. Нахождение баркодов форм объектов позволяет изучать как непрерывные, так и дискретные структуры, что делает их использование полезным в вычислительной топологии. Отличительной особенностью использования предложенных методов сравнения по отношению к методам алгебраической топологии является получение большего количества информации о форме объекта. Важным направлением применения вещественных баркодов является изучение инвариантов больших объемов данных. Предлагается метод, который объединяет технологии построения баркодов с внедренной негеометрической информацией (цвет, момент времени формирования, давление пера), представленной в виде функций от симплициальных комплексов. Для этого баркоды расширяются функциями от симплексов для представления разнородной информации. Представленная структура расширенных баркодов повышает эффективность методов персистентных гомологий при сравнении изображений и распознавании образов. Предложена модификация метода Вассерштейна для нахождения расстояния между изображениями путем введения негеометрической информации о расстояниях между изображениями, обусловленной неравенствами функций исходного и терминального изображений соответствующих симплексов. Геометрические характеристики объекта могут изменяться при диффеоморфных деформациях; предложенные алгоритмы формирования расширенных баркодов изображений являются инвариантными к преобразованиям вращения и переноса. Рассмотрен метод определения расстояния между множествами точек, представляющими кривые, с учетом ориентации отрезков кривых. В работе используются понятия алгебраической и вычислительной топологии, теории лиевых групп, диффеоморфных преобразований.
В работе представлены результаты исследований комбинаторно-метрического алгоритма распознавания многомерных групповых точечных объектов (ГТО) в пространстве признаков, имеющих иерархическую организацию. На примере многоуровневых описаний смоделированных и реальных объектов исследован характер изменения показателей достоверности в условиях, когда результаты распознавания, полученные на одном уровне иерархии, используются в качестве исходных данных на следующем. Рассмотрены предпосылки представления распознаваемых объектов или процессов в виде ГТО и источники иерархии. Так, результаты измерений n -мерного процесса в m временных сечениях или в одном сечении, но m независимыми наблюдателями представляются при распознавании n -мерным m -элементным ГТО. В случае распознавания протяженных в пространстве объектов — априорная неопределенность относительно ракурса представления, неполноты состава и координатных шумов элементов обуславливают комбинаторные процедуры количественной оценки меры близости многомерных ГТО, представляющих объект распознавания тому или иному классу. Устойчивость представленного комбинаторно-метрического алгоритма распознавания ГТО достигается возможностью смены стратегии принятия классификационного решения, использующей априорные показатели распознавания на низших уровнях иерархии. В численных экспериментах проводилась классификация геометрии ГТО, представляющего образец, по составу элементов образца или по комплексному априорному показателю достоверности. Для повышения вероятности правильного распознавания предложено использовать перебор результатов распознавания на нижних уровнях иерархии, характеризующихся более низкими априорными показателями достоверности распознавания по первичным признакам. Благодаря использованию процедур поиска комбинаций индексов в окрестности максимума апостериорной вероятности правильного распознавания на нижних уровнях доставляется экстремальное значение критерию качества функционирования системы распознавания на ее верхнем уровне иерархии. Приведены экспериментальные зависимости априорных и апостериорных показателей достоверности при различных условиях проведения измерений и состояний объектов распознавания.
Распознавание эмоций в речи стало одним из важных направлений в области аффективных вычислений. Это комплексная задача, трудности которой во многом определяются необходимостью выбора признаков и их оптимального представления. Оптимальное представление признаков должно отражать глобальные характеристики, а также локальную структуру сигнала, поскольку эмоции естественным образом длятся во времени. Подобное представление возможно моделировать с помощью рекуррентных нейронных сетей (РНС – RNN), которые активно используются для различных задач распознавания, предполагающих работу с последовательностями. Предлагается смешанный подход к представлению признаков, который объединяет традиционные статистические признаки с последовательностью значений, полученных на выходе РНС с длинной кратковременной памятью (ДКП – LSTM) и хорошо моделирующих временную структуру сигнала. Таким образом, удается получить одновременное представление как кратковременных, так и долгосрочных характеристик, позволяющих использовать преимущества обоих подходов к моделированию признаков речевого сигнала. Для экспериментальной проверки предложенного метода была произведена оценка его эффективности на трех различных базах данных эмоционально окрашенной речи, находящихся в свободном доступе: RUSLANA (русская речь), BUEMODB (турецкая речь) и EMODB (немецкая речь). В сравнении с традиционным подходом результаты наших экспериментов показывают абсолютный прирост в точности распознавания эмоций в 2.3% и 2.8% для двух из вышеупомянутых корпусов, в то время как для третьего корпуса предложенный метод не уступает базовой системе. Следовательно, данный подход можно признать эффективным для моделирования эмоциональной окраски речевых высказываний при условии достаточного количества обучающих данных.
Представлены последние усовершенствования в распознавании сербской речи, достигнутые с использованием современных глубоких нейронных сетей, основанных на применении дискриминативного обучения на последовательностях для акустического моделирования. Описываются несколько вариантов новой системы распознавания слитной речи с большим словарем (LVCSR), которая основанна на обучении по критерию максимальной взаимной информации (LF-MMI) без использования решетки. Параметры системы варьировались таким образом, чтобы достичь наименьших значений ошибки распознавания слов (WER) и ошибки распознавания символов (CER) при использовании самой большой существующей речевой базы данных сербского языка и наилучшей n-граммной языковой модели общего назначения. В дополнение к настройке самой нейронной сети (числа слоев, сложности, объединения элементов слоя и т.д.) для получения наилучших результатов были исследованы и другие ориентированные на конкретный язык способы оптимизации, такие как использование акценто-зависимых моделей гласных фонем и их сочетание с тональными признаками. Также была исследована настройка речевой базы данных, которая включает в себя искусственное расширение базы данных путем изменения скорости речевых высказываний и масштабирование уровня громкости для учета вариативности речи.
Результаты экспериментов показали, что 8-слойная глубокая нейронная сеть с 625 нейронами в каждом слое работает в данных условиях работает лучше других сетей без необходимости увеличения речевой базы данных или регулировки громкости. Кроме того, тональные признаки в сочетании с использованием акценто-зависимых моделей гласных обеспечивают наилучшие показатели точности во всех экспериментах. Ключевые слова: глубокая нейронная сеть, автоматическое распознавание речи, обучение на последовательностях, LF-MMI, акценты, основной тон, сербский.
Приведен аналитический обзор разновидностей интегральных (end-to-end) систем для распознавания речи, методов их построения, обучения и оптимизации. Рассмотрены варианты моделей на основе коннекционной временной классификации (CTC) в качестве функции потерь для нейронной сети, модели на основе механизма внимания и шифратор-дешифратор моделей. Также рассмотрены нейронные сети, построенные с использованием условных случайных полей (CRF), которые являются обобщением скрытых марковских моделей, что позволяет исправить многие недостатки стандартных гибридных систем распознавания речи, например, предположение о том, что элементы входных последовательностей звуков речи являются независимыми случайными величинами. Также описаны возможности интеграции с языковыми моделями на этапе декодирования, демонстрирующие существенное сокращение ошибки распознавания для интеграционных моделей. Описаны различные модификации и улучшения стандартных интегральных архитектур систем распознавания речи, как, например, обобщение коннекционной классификации и использовании регуляризации в моделях, основанных на механизмах внимания. Обзор исследований, проводимых в данной предметной области, показывает, что интегральные системы распознавания речи позволяют достичь результатов, сравнимых с результатами стандартных систем, использующих скрытые марковские модели, но с применением более простой конфигурации и быстрой работой системы распознавания как при обучении, так и при декодировании. Рассмотрены наиболее популярные и развивающиеся библиотеки и инструментарии для построения интегральных систем распознавания речи, такие как TensorFlow, Eesen, Kaldi и другие. Проведено сравнение описанных инструментариев по критериям простоты и доступности их использования для реализации интегральных систем распознавания речи.
Описан алгоритм автоматического построения деформируемых 3D моделей лица, основанного на использовании метода Active Shape Models, метода восстановления ландшафтных поверхностей Шепарда и набора частных 3D моделей лиц. Предложена альтернативная к EER оценке точности в задаче распознавания личности по изображению лица, основанная на фиксированном значении оценки FAR. Приведены результаты тестирования описанного алгоритма. Продемонстрированы результаты использования полученных моделей в рамках работы алгоритма распознавания на крупной базе из нескольких тысяч изображений (база изображений FERET за 2000 год), содержащей фотографии людей под углами 0, 45 и 90 градусов относительно оптической оси камеры. Анализ результатов показал, что применение деформируемых моделей лица не снижает качества распознавания личности по изображению лица даже при сложных начальных условиях, а в ряде случаев ведет к улучшению результатов распознавания.
Данная статья посвящена отбору и оценке речевых признаков, используемых в задаче автоматической текстонезависимой верификации диктора. Для решения поставленной задачи была использована система верификации диктора, основанная на модели Гауссовых смесей и универсальной фоновой модели (GMM-UBM система).
Рассмотрены область применения и проблемы современных систем автоматической идентификации диктора. Произведен обзор современных методов идентификации диктора, основных речевых признаков, используемых при решении задачи идентификации диктора, а также рассмотрен процесс извлечения признаков, использованных далее. К рассмотренным признакам относятся мел-кепстральные коэффициенты (MFCC), пары линейного спектра (LSP), кепстральные коэффициенты перцептивного линейного предсказания (PLP), кратковременная энергия, формантные частоты, частота основного тона, вероятность вокализации (voicing probability), частота пересечения нуля (ZCR), джиттер и шиммер.
Произведена экспериментальная оценка GMM-UBM системы с применением различных наборов речевых признаков на речевом корпусе, включающем в себя записи 50 дикторов. Признаки отобраны с помощью генетического алгоритма и алгоритма жадного добавления-удаления.
Используя 256-компонентные Гауссовы смеси и полученный вектор из 28 признаков, была получена равная ошибка 1-го и 2-го рода (EER), составляющая 0,579 %. По сравнению со стандартным вектором, состоящим из 14 мел-кепстральных коэффициентов, ошибка EER была уменьшена на 42,1 %.
В статье представлена методика обоснования требований к системе технического зрения робототехнического комплекса. Система технического зрения робототехнического комплекса рассматривается как совокупность двух подсистем: измерения и распознавания. Для реализации методики разработаны: методики расчетов частных критериев оптимальности для решения задачи обоснования технических требований и оценки области поиска оптимальных значений характеристик измерительных средств системы технического зрения робототехнического комплекса; рекурсивная процедура выбора оптимальных значений характеристик измерительного средства системы технического зрения робототехнического комплекса; схема компромисса для оценки оптимальных технических характеристик перспективных измерительных средств системы технического зрения робототехнического комплекса в различных технико-экономических концепциях.
Поиск оптимального решения производится по частным критериям: эффективность распознавания, стоимость и риск создания измерительного средства. Для построения рекурсивной процедуры на основе сформулированных допущений и утверждения синтезирован критерий, обеспечивающий поиск Парето-оптимальных решений. Разработанная методика при выборе решения из компромиссной области позволяет учитывать существующую (желательную) технико-экономическую концепцию создания робототехнического комплекса.
В статье представлен аналитический обзор основных разновидностей акустических и языковых моделей на основе искусственных нейронных сетей для систем автоматического распознавания речи. Рассмотрены гибридный и тандемный под-ходы объединения скрытых марковских моделей и искусственных нейронных сетей для акустического моделирования, описано построение языковых моделей с применением сетей прямого распространения и рекуррентных нейросетей. Обзор исследований в данной области показывает, что применение искусственных нейронных сетей как на этапе акустического, так и на этапе языкового моделирования позволяет снизить ошибку распознавания слов.
В статье описаны результаты обработки электромиограммы (ЭМГ) и результаты распознавания мимических движений алгоритмом радиальной базисной функции нейронной сети (НС). В качестве входного вектора признаков использовались девять признаков-функций ЭМГ во временной области. Наиболее высокая точность распознавания и скорость обучения получены для признака «Максимальные значения», наихудший результат получен для признака «Среднее арифметическое». На основе полученных данных предложен алгоритм распознавания движений. Классификатор может применяться для создания интерфейсов вида «человек-машина».
Приведены результаты исследований по разработке технологий обработки разносенсорной информации, получаемой бортовой системой машинного зрения, для решения комплекса задач навигации и управления беспилотным летательным аппаратом (БЛА). Проведен анализ предметной области, выделены основные задачи, требующие решения для эффективного выполнения основных функций БЛА. Предложены оригинальные методы комплексирования, основанные на диффузной морфологии, разработаны методики подготовки обучающих выборок и глубокого машинного обучения, обеспечивающие высокое качество распознавания, создана база данных синтезированных изображений для обучения алгоритмов распознавания.
Рассматриваются актуальные и перспективные направления по использованию высокоскоростных видеокамер. Обсуждается возможность применения высокоскоростных камер в области человеко-машинного взаимодействия для автоматического распознавания динамической видеоинформации (в том числе визуальной речи диктора). Выделяются основные задачи взаимодействия, решаемые с помощью высокоскоростных камер, такие как: автоматическое чтение речи по губам диктора, обнаружение моргания, распознавание микровыражений. Обозначаются возможные проблемы, связанные с внедрением высокоскоростных видеокамер. Анализируется состояние области исследований на настоящий момент и доказывается, что имеется высокая актуальность развития данного научно-технического направления. Предлагаются многообещающие области применения и задачи организации человеко-машинного взаимодействия с применением высокоскоростной видеосъемки. Основными направлениями являются аудиовизуальное распознавание слитной речи и чтение речи по губам диктора. В ходе дальнейших исследований планируется реализация подобной многомодальной системы аудиовизуального распознавания речи для русского языка с использованием микрофона и высокоскоростной видеокамеры JAI Pulnix.
В настоящей работе предлагается подход к обнаружению широкого класса визуальных контаминантов на основе вычисления перцептивных хэшей и формирования эталонной базы данных потенциально опасных мультимедийных объектов для построения автоматической системы защиты потребителей мультимедийного контента от нежелательного воздействия на их психику и сознание.
В статье описывается выбор оптимального фонемного набора для системы автоматического распознавания русской речи. При создании акустических моделей был предложен комбинированный метод для выбора наилучшего фонемного набора, объединяющий статистическую информацию и фонетические знания. В результате применения данного метода к русскому фонетическому набору алфавита IPA (International Phonetic Alphabet) был получен набор из 47 фонологических единиц, который был преобразован в несколько фонемных наборов с разным размером от 27 до 47 единиц. Эксперименты по распознаванию речи показали, что использование сокращенных фонемных наборов позволяет увеличить точность распознавания фонем. В ходе экспериментов с применением расширенной языковой модели и сверхбольшим словарем точность распознавания слов составила 73,1%. Полученные результаты соответствуют качеству распознавания слитной русской речи, полученному на настоящий момент другими организациями.
Создание модели языка является одним из этапов обучения системы распознавания слитной речи. В статье описаны алгоритм и разработанные программные средства для создания синтаксическо-статистической модели русского языка по текстовому корпусу. Основными этапами в работе алгоритма являются предварительная обработка текстового материала, создание статистической n-граммной модели языка, дополнение статистической модели n-граммами, полученными в результате синтаксического анализа. Синтаксический анализ позволяет увеличить количество создаваемых в результате обработки текста различных биграмм и тем самым повысить качество модели языка за счет выявления грамматически связанных пар слов. Приводятся результаты тестирования созданных с помощью программного модуля моделей языка по показателям информационной энтропии, коэффициента неопределенности, относительного количества внесловарных слов и совпадений n-грамм.
Результаты массового оптического распознавания архивных документов необходимо подвергать корректировке с целью сокращения количества ошибок. В работе описывается алгоритм корректировки, учитывающий особенности русского языка и позволяющий обрабатывать корпуса текстов больших объемов в полностью автоматическом режиме. Процесс корректировки разделяется на этапы анализа всего корпуса текстов, подготовки структур данных, отбора слов-кандидатов и их финального ранжирование. Использование рейтинго-ранговой модели текста для генерации корректировок позволяет обрабатывать тексты, содержащие узкоспециализированную терминологию, различных предметных областей.
Рассматриваются вопросы повышения энергоэффективности электроэнергетических комплексов децентрализованной энергетики со сверхпроводниковым оборудованием за счет использования интеллектуальной защищенной диалоговой системы автоматического управления, выполняющей адаптацию комплекса к режимам работы, внешним возмущающим воздействиям и проводящей биометрический контроль доступа операторов.
При автоматической обработке спонтанной речи возникает ряд трудностей, таких как вариативность речи или присутствие речевых сбоев различной природы. В статье рассматриваются различные виды речевых сбоев и причины их возникновения, а также представлен алгоритм их автоматического определения, основанный на анализе акустических параметров. Для выделения звонких хезитационных явлений использовался кросскорреляционный метод, а для выделения глухих хезитационных явлений – метод полосовой спектральной фильтрации. Эксперименты проводились на специально собранном корпусе спонтанной русской речи, состоящем из диалогов по описанию маршрута по карте и нахождению общего свободного времени по расписанию. Проведенные эксперименты показали, что звонкие хезитационные явления выделяются с точностью 80%, глухие хезитационные явления и дыхание - с точностью 66%.
Целью работы является создание алгоритма генерации тезауруса синонимов для названий продуктов. Такие тезаурусы используются в современных поисковых машинах для расширения пользовательского запроса и улучшения качества поиска. При этом подходе из поискового индекса выбираются документы, включающие в себя не только слова, содержащиеся в запросе, но и близкие по смыслу термины. В ходе работы был реализован полуавтоматический метод обучения распознавателя именованных сущностей. Для валидации извлеченных сущностей был предложен метод полуавтоматической валидации.
В данной статье определены возможности использования нейрокомпьютер- ной технологии для обработки снимков космических систем дистанционного зондиро- вания Земли. Представлено моделирование процесса классификации объектов. Обсуж- даются последовательность и содержание основных этапов построения архитектуры нейронной сети. Для классификации и распознавания наземных объектов на космических снимках используются их спектральные характеристики. Проведен сравнительный анализ работы различных типов нейронных сетей при классификации наземных объектов.
Рассматриваются нейросетевые модели и логико-предметные методы описания, анализа и распознавания сложных образов. Предложены алгоритмы решения задач идентификации и классификации простых образов (например, изображений объектов) и логического анализа и нейросетевого распознавания сложных образов (например, сложных 3D-сцен по 2D-изображениям частично заслоненных объектов). Дан сравнительный анализ сложности алгоритмов и описаны результаты вычислительных экспериментов.
Приведено описание системы идентификации дикторов по голосу, разработанной для конкурса по оцениванию систем распознавания дикторов NIST SRE 2012
Статья посвящена исследованию возможностей языков семейства Prolog для их использования при решении задач распознавания изображений на экране дисплея. Отмечены трудности, возникшие при реализации подхода на языках семейства Prolog. Показано, как использование оценок числа шагов работы алгоритма поиска вывода для рассматриваемой задачи позволило преодолеть возникшие трудности. Приведены примеры применения написанных программ к выделению эталонного изображения на сложном изображении. Проанализированы особенности использования различных форматов изображения, предъявленного к распознаванию.
В настоящей статье вначале описываются особенности и проблематика массового распознавания архивных документов. Рассматриваются ключевые проблемы проектирования такого рода систем, приводятся примеры и предлагаются различные варианты их решения. Далее приводится концептуальная схема построения электронного архива и отдельная схема организации входящей в его состав подсистемы автоматического распознавания. Описываются основные компоненты, функции и бизнес- процессы, протекающие в системе.
В статье представлен обзор систем, применяемых для ассистивного интеллектуального пространства. Также описывается разработанная многомодальная ассистивная система для интеллектуального жилого пространства, которая состоит из двух комплексов средств. Первый комплекс выполняет обработку видеопотоков для определения положения пользователя и слежения за его перемещением, а также анализа его действий. Ко второму комплексу относится система обработки аудиопотоков, предназначенная для автоматического распознавания речевых команд и акустических событий. Разработанная система автоматического распознавания речи многоязычна и позволяет распознавать слова, произнесенные на английском или русском. В процессе проведения экспериментов было записано 2811 аудиофайлов, содержащих речь и акустические события, средняя точность распознавания составила 96,5% и 93,8% соответственно.
Настоящая статья описывает сравнение современных систем оптического распознавания, проводимого с целью определить системы, наиболее точно выполняющих сегментацию документов по заранее заданным критериям; а также возможности систем по выделению различных типов областей. Анализируются результаты работы методов сегментации OCR-систем, оценивается эффективность сегментации. На основе результатов исследования и сделанных наблюдений составлен список рекомендаций по выбору OCR-систем и методов для обработки различных типов документов.
Для распознавания слитной речи со сверхбольшим словарем распознавателю необходима модель языка, описывающая допустимые фразы. В статье представлены результаты экспериментов по распознаванию слитной речи со сверхбольшим (более 100 тыс. слов) словарем с применением n-граммных моделей языка. Проведено количественное сравнение точности распознавания слов, символов и фонем в зависимости от используемой n-граммной модели при изменении n от 0 до 3.
1 - 25 из 42 результатов