Весь выпуск
Статьи
-
45 лет назад началась история Санкт-Петербургского института информатики и автоматизации Российской академии наук (СПИИРАН), когда Распоряжением Совета Министров СССР от 19 декабря 1977 года и Постановлением Президиума Академии наук СССР от 19 января 1978 года был организован Ленинградский научно-исследовательский вычислительный центр АН СССР (ЛНИВЦ), преобразованный в 1985 году по решению Президиума АН СССР в Ленинградский институт информатики и автоматизации АН СССР (ЛИИАН), затем в 1991 году в связи с возвращением городу его исторического имени Институт обрел актуальное и сегодня название СПИИРАН. К своему 45 летию Институт информатики (ЛНИВЦ, ЛИИАН, СПИИРАН), объединившись с пятью ведущими академическими организациями Северо-Запада России, в 2020 году стал Санкт-Петербургским Федеральным исследовательским центром Российской академии наук (СПб ФИЦ РАН). Визитной карточкой научного коллектива СПб ФИЦ РАН являются системные междисциплинарные исследования. Полученные учеными фундаментальные результаты в областях информатики, кибернетики, искусственного интеллекта, робототехники, безопасности, экологии, сельского хозяйства и инновационно-инвестиционного развития территорий нашли применение в формировании прикладных решений по цифровой трансформации агроэкологического производства, укреплению продовольственной, экологической и информационной безопасности граждан нашей страны.
Искусственный интеллект, инженерия данных и знаний
-
В статье представлен аналитический обзор исследований в области аффективных вычислений. Это направление является составляющей искусственного интеллекта, и изучает методы, алгоритмы и системы для анализа аффективных состояний человека при его взаимодействии с другими людьми, компьютерными системами или роботами. В области интеллектуального анализа данных под аффектом подразумевается проявление психологических реакций на возбуждаемое событие, которое может протекать как в краткосрочном, так и в долгосрочном периоде, а также иметь различную интенсивность переживаний. Аффекты в рассматриваемой области разделены на 4 вида: аффективные эмоции, базовые эмоции, настроение и аффективные расстройства. Проявление аффективных состояний отражается в вербальных данных и невербальных характеристиках поведения: акустических и лингвистических характеристиках речи, мимике, жестах и позах человека. В обзоре приводится сравнительный анализ существующего информационного обеспечения для автоматического распознавания аффективных состояний человека на примере эмоций, сентимента, агрессии и депрессии. Немногочисленные русскоязычные аффективные базы данных пока существенно уступают по объему и качеству электронным ресурсам на других мировых языках, что обуславливает необходимость рассмотрения широкого спектра дополнительных подходов, методов и алгоритмов, применяемых в условиях ограниченного объема обучающих и тестовых данных, и ставит задачу разработки новых подходов к аугментации данных, переносу обучения моделей и адаптации иноязычных ресурсов. В статье приводится описание методов анализа одномодальной визуальной, акустической и лингвистической информации, а также многомодальных подходов к распознаванию аффективных состояний. Многомодальный подход к автоматическому анализу аффективных состояний позволяет повысить точность распознавания рассматриваемых явлений относительно одномодальных решений. В обзоре отмечена тенденция современных исследований, заключающаяся в том, что нейросетевые методы постепенно вытесняют классические детерминированные методы благодаря лучшему качеству распознавания состояний и оперативной обработке большого объема данных. В статье рассматриваются методы анализа аффективных состояний. Преимуществом использования многозадачных иерархических подходов является возможность извлекать новые типы знаний, в том числе о влиянии, корреляции и взаимодействии нескольких аффективных состояний друг на друга, что потенциально влечет к улучшению качества распознавания. Приводятся потенциальные требования к разрабатываемым системам анализа аффективных состояний и основные направления дальнейших исследований.
-
Главной задачей использования нейронных сетей является оперативное и точное решение различных творческих задач, таких как анализ и синтез новостных потоков при сохранении непрерывности обучения. Результатом такой обработки могут быть дайджесты, новостные потоки, прошедшие фильтрацию, а также прогнозы событий, позволяющих обеспечивать проактивность в управленческих решениях Известные методы обработки новостей нейронными сетями и реализующие их технические решения не в полной мере обеспечивают решение возникающих в этой области задач. Необходимо расширить их функциональные возможности, совершенствовать пространственно-временное связывание сигналов в рекуррентных нейронных сетях. При обработке новостных потоков одновременно с непрерывным обучением рекуррентных нейронных сетей следует осуществлять селекцию, распознавание, восстановление, прогнозирование и синтез новостей. Для снижения остроты проблемы предлагается перспективный метод многофункциональной обработки новостных потоков с применением рекуррентных нейронных сетей с логической организацией слоев и непрерывным обучением. Метод основан на развитии ассоциативной обработки текстовой информации в потоковых рекуррентных нейронных сетях с управляемыми элементами. Ключевыми особенностями этого метода являются многофункциональная обработка информационных потоков с изменяющимися законами появления новостей. Метод предусматривает оперативный отбор, распознавание, восстановление, прогнозирование и синтез новостей на основе глубокой ассоциативной непрерывной обработки связей между текстовыми элементами. Реализующая предлагаемый метод нейросетевая система отличается от известных решений новыми элементами, связями между ними, а также выполняемыми функциями. По результатам экспериментов подтверждена расширенная функциональность метода. Выявлены новые особенности обработки новостных текстов потоковыми РНС. Предлагаемые решения могут найти применение при создании интеллектуальных систем нового поколения не только для обработки текстов, но и других видов информации.
-
В работе выполнен анализ современного состояния проблемы извлечения знаний из клинических рекомендаций, представленных в виде слабоструктурированных корпусов текстовых документов на естественном языке с учетом их периодического обновления. Рассматриваемые методы интеллектуального анализа накопленных массивов медицинских данных позволяют автоматизировать ряд задач, направленных на повышение качества медицинской помощи за счет значимой поддержки принятия решений в процессе диагностики и лечения. Выполнен обзор известных публикаций, освещающий подходы к автоматизации построения нейросетевых языковых моделей, онтологий и графов знаний в задачах семантического моделирования проблемно-ориентированного корпуса текстов. Представлена структурно-функциональная организация системы извлечения знаний и автоматического построения онтологии и графа знаний проблемно-ориентированного корпуса для конкретной предметной области. Рассмотрены основные этапы извлечения знаний и динамического обновления графа знаний: извлечение именованных сущностей, семантическое аннотирование, извлечение терминов, ключевых слов, тематическое моделирование, идентификация тем и извлечение отношений. Формализованное представление текстов получено с помощью предобученной модели-трансформера BERT. Использовано автоматическое выделение триплетов «объект»-«действие»-«субъект» на основе частеречной разметки корпуса текстов для построения фрагментов графа знаний. Проведен эксперимент на корпусе медицинских текстов заданной тематики (162 документа обезличенных историй болезни пациентов педиатрического центра) без предварительной разметки с целью проверки предложенного решения по извлечению триплетов и конструирования на их основе графа знаний. Анализ экспериментальных результатов подтверждает необходимость более глубокой разметки корпуса текстовых документов для учета специфики медицинских текстовых документов. Показано, что модели общего назначения не позволяют приблизиться по качеству выделения именованных сущностей к специализированным моделям, однако, позволяют предварительно разметить корпус для дальнейшей верификации и уточнения разметки (оценка F1-меры для модели общего назначения – 20,4% по сравнению с вариантом использования словаря – 16,7%). Для неразмеченного корпуса текстов предложенное решение демонстрирует удовлетворительную работоспособность ввиду выделения атомарных фрагментов, включаемых в автоматически формируемую онтологию.
-
Методы машинного обучения и цифровой обработки сигналов применяются в различных отраслях, в том числе при анализе и классификации сейсмических сигналов поверхностных источников. Разработанный алгоритм анализа типов волн позволяет автоматически идентифицировать и, соответственно, отделять приходящие сейсмические волны на основе их характеристик. Для выделения типов волн используется сейсмический измерительный комплекс, определяющий характеристики граничных волн поверхностных источников с использованием специальных молекулярно-электронных датчиков угловых и линейных колебаний. Представлены результаты работы алгоритма обработки данных, получаемых по методике сейсмических наблюдений, использующей спектральный анализ на основе вейвлета Морле. Также в работе описан алгоритм классификации источников сигнала, определения расстояния и азимута до пункта возбуждения поверхностных волн, рассмотрено использование статистических характеристик и MFCC (Мел-частотные кепстральные коэффициенты) параметров, а также их совместное применение. При этом в качестве статистических характеристик сигнала были использованы следующие: дисперсия, коэффициент эксцесса, энтропия и среднее значение, а в качестве метода машинного обучения был выбран градиентный бустинг; в качестве метода определения расстояния до источника сигнала применен метод машинного обучения на основе градиентного бустинга с применением статистических и MFCC параметров. Обучение проводилось на тестовых данных на основе выделенных особенных параметрах сигналов источников сейсмического возбуждения поверхностных волн. С практической точки зрения, новые методы сейсмических наблюдений и анализа граничных волн позволяют решить проблему обеспечения плотной расстановки датчиков в труднодоступных местах, устранить недостаток знаний в алгоритмах обработки данных сейсмических сенсоров угловых движений, выполнить классификацию и систематизацию источников, повысить точность прогнозирования, реализовать алгоритмы локации и сопровождения источников. Целью работы стало создание алгоритмов обработки сейсмических данных для классификации источников сигнала, определения расстояния и азимута до пункта возбуждения поверхностных волн.
Цифровые информационно-телекоммуникационные технологии
-
Компьютерные сети основаны на технологии, обеспечивающей техническую инфраструктуру, в которой протоколы маршрутизации используются для передачи пакетов через Интернет. Протоколы маршрутизации определяют, как маршрутизаторы взаимодействуют друг с другом путем распространения информации. Они используются для описания того, как маршрутизаторы взаимодействуют друг с другом, изучения доступных маршрутов, построения таблиц маршрутизации, принятия решений о маршрутизации и обмена информацией между соседями. Основная цель протоколов маршрутизации — определить наилучший маршрут от источника к месту назначения. Частный случай протокола маршрутизации, работающего в автономной системе, называется протоколом внутренней маршрутизации (IGP — Internal Gateway Protocol). В статье анализируется проблема правильного выбора протокола маршрутизации. Open Shortest Path First (OSPF) и Enhanced Internal Gateway Routing Protocol (EIGRP) считаются ведущими протоколами маршрутизации для приложений реального времени. Для этого их выбирают для изучения. Основной целью исследования является сравнение предложенных протоколов маршрутизации и их оценка на основе различных показателей производительности. Эта оценка осуществляется теоретически – путем анализа их характеристик и действия, и практически – посредством имитационных экспериментов. После изучения литературы определяются сценарии моделирования и количественные показатели, по которым сравнивается производительность протоколов. Во-первых, сетевая модель с OSPF разрабатывается и моделируется с помощью симулятора OPNET Modeler. Во-вторых, EIGRP реализован в том же сетевом сценарии, и выполняется новое моделирование. Реализация сценариев должна собрать необходимые результаты и проанализировать работу двух протоколов. Данные должны быть получены, а оценка и вывод должны быть сделаны в отношении определенных количественных показателей.
-
В представленной работе рассматривается задача автоматизации и снижения сложности процесса разработки виртуальных тренажерных комплексов. Проведенный анализ предметной области показал необходимость перехода от монолитного подхода к сервис-ориентированному варианту архитектуры. Выявлено, что использование монолитной архитектуры при реализации виртуальных тренажерных комплексов ограничивает возможность модернизации системы, увеличивает ее программную сложность, затрудняет реализацию интерфейса для управления и мониторинга процесса подготовки. Представлена общая концепция микросервисной архитектуры виртуальных тренажерных комплексов, даны определения основных и второстепенных компонентов. Научная новизна исследования заключается в переходе от классической монолитной архитектуры в предметной области ВТК к микросервисной архитектуре и устранении недостатков данного подхода за счет реализации единого протокола обмена информацией между модулями и отделения процедур сетевого взаимодействия в программные библиотеки в каждом микросервисе для унификации и повышения надежности работы системы. Применение изолированных, слабо связанных микросервисов позволяет использовать оптимальные технологии, платформы и фреймворки для их реализации, отделить графический интерфейс инструктора тренажера от системы визуализации и виртуальной реальности, обеспечить возможность гибкой замены основных компонентов (визуализации, интерфейса, взаимодействия с виртуальной реальностью) без изменения архитектуры и влияния на остальные модули. Осуществлена декомпозиция структурной модели микросервисной архитектуры, представлена специфика функционирования основных компонентов. Рассмотрена реализация библиотек сетевого взаимодействия микросервисов и протокола обмена данных на основе JSON. Практическая значимость предложенной архитектуры состоит в возможности распараллеливания и снижения сложности процесса разработки и модернизации тренажерных комплексов. Проанализированы особенности функционирования систем, реализованных на предложенной микросервисной архитектуре.
Информационная безопасность
-
На сегодняшний день вопросы, связанные с обеспечением безопасности БПЛА, весьма актуальны. Исследователям необходимо разрабатывать новые методы защиты для своевременного обнаружения атаки и реализации мер по смягчению ее последствий. В работе авторы предлагают новую концепцию обнаружения атак «изнутри» БПЛА. Идея состоит в анализе киберфизических параметров БПЛА, которые могут указывать на атаку и ее возможные последствия. Было определено, что для обнаружения атаки и определения последствий, к которым она может привести, необходимо контролировать не только исходные параметры, но и внутренние кибер-физические параметры БПЛА. Это позволит спрогнозировать возможные последствия нападения и принять экстренные меры. Проработана схема влияния атаки на БПЛА и взаимосвязь с инцидентами безопасности, построенная с использованием онтологического подхода. Рассмотрены две основные сущности БПЛА - физические и цифровые аспекты БПЛА. Также показаны примеры цепочек атак, приводящие к различным последствиям. В обзорной части выполнен анализ методов и алгоритмов обнаружения спуфинговых атак с использованием генераторов данных, на основании которого сделаны выводы об их достоинствах и недостатках. Далее, на основании проведенных экспериментов, авторы предлагают метод оценки качества данных и метод генерации аномальных наборов данных, похожих на реальные данные об атаках, которые могут применяться для разработки и тестирования методов обнаружения и блокирования атак. Описана архитектура экспериментального стенда, который был использован в рамках натурного моделирования. На данном стенде, предназначенном для разбора атак с подменой GPS (GPS-спуфинг), проходила отработка нескольких сценариев нормального полета, а затем нескольких сценариев атаки. По результатам проведенных экспериментов был предложен метод, позволяющий имитировать данные, соответствующие атаке, с требуемой точностью. Также был предложен метод оценки качества сгенерированных данных.
-
В современных сетях передачи данных для постоянного мониторинга сетевого трафика и обнаружения в нем аномальной активности, а также идентификации и классификации кибератак, необходимо учитывать большое число факторов и параметров, включая возможные сетевые маршруты, времена задержки данных, потери пакетов и новые свойства трафика, отличающиеся от нормальных. Все это является побудительным мотивом к поиску новых методов и методик обнаружения кибератак и защиты от них сетей передачи данных. В статье рассматривается методика обнаружения аномалий и кибератак, предназначенная для использования в современных сетях передачи данных, которая основывается на интеграции методов фрактального анализа и машинного обучения. Методика ориентирована на выполнение в реальном или близком к реальному масштабе времени и включает несколько этапов: (1) выявления аномалий в сетевом трафике, (2) идентификации в аномалиях кибератак и (3) классификации кибератак. Первый этап реализуется с помощью методов фрактального анализа (оценки самоподобия сетевого трафика), второй и третий – с применением методов машинного обучения, использующих ячейки рекуррентных нейронных сетей с долгой краткосрочной памятью. Рассматриваются вопросы программной реализации предлагаемой методики, включая формирование набора данных, содержащего сетевые пакеты, циркулирующие в сети передачи данных. Представлены результаты экспериментальной оценки предложенной методики, полученные с использованием сформированного набора данных. Результаты экспериментов показали достаточно высокую эффективность предложенной методики и разработанных для нее решений, позволяющих осуществлять раннее обнаружение как известных, так и неизвестных кибератак.
Робототехника, автоматизация и системы управления
-
Интеграция методологического базиса нескольких разных наук при междисциплинарных исследованиях является характерной чертой новых механизмов решения современных прикладных задач. Формируемые теоретические основы аэролимнологии, как нового научного направления, рассматриваются с точки зрения вклада в нее трех ключевых наук: лимнологии, информатики и робототехники. Приведены классификации методов и способов лимнологических исследований, воздушных робототехнических средств, информационных технологий, перспективных для решения задач в области аэролимнологии. Задача научного направления аэролимнологии формулируется как изучение возможностей и ограничений комбинированных способов дистанционного сенсорного измерения, роботизированного пробоотбора и аналитического исследования параметров экосистем пресных водоемов для мониторинга и предсказания динамики их развития. Среди основных направлений аэролимнологических исследований выделены: построение ортофотопланов и фотограмметрических пространственных моделей рельефа дна и отдельных элементов донного ландшафта и прибрежной зоны разного масштаба; геолого-геофизическое картирование подводной части береговой зоны; изучение фитопланктона, в частности «цветения» воды, вызванного цианобактериями; исследование распределения и миграций крупных представителей гидрофауны; изучение температурных полей и процессов перераспределения водных масс. Обсуждаются ограничения, накладываемые на использование беспилотных летательных аппаратов (БпЛА) при пробоотборе и мониторинге прибрежных водных территорий, прежде всего погодно-климатические, временные, пространственные, технические. Преимущество использования беспилотных летательных аппаратов в аэролимнологии обосновывается увеличением скорости получения данных, возможностью подлета к труднодоступным и территориально удаленным объектам, снижением влияния человеческого фактора. Научная новизна представленного исследования состоит в попытке интеграции междисциплинарных знаний при использовании беспилотных летательных аппаратов и обработке полученных данных на основе технологий искусственного интеллекта при изучении лимнологических объектов и процессов. Отмечается важная роль геоинформационных систем и приводятся примеры карт типизации берегов и геоморфологии Ладожского озера, размещенные на сайте Центра коллективного пользования научным оборудованием «Северо-Западный центр мониторинга и прогнозирования развития территорий» СПБ ФИЦ РАН. Рассматриваются основные этапы методологии проведения аэролимнологических исследований с применением междисциплинарных подходов на основе лимнологии, информатики и робототехнических средств, функционирующих в разных средах.