Найти | Информатика и автоматизация

Поиск статей:

Расширенные фильтры

Опубликовано после

Опубликовано до

По автору

Андрей Геннадьевич Бородинов, Владимир Владимирович Манойлов, Игорь Вячеславович Заруцкий, Александр Иванович Петров, Владимир Ефимович Курочкин, Алексей Сергеевич Сараев

2022-05-30

Машинное обучение в задачах base-calling для методов секвенирования нового поколения

572-603

Развитие технологий секвенирования следующего поколения (NGS) внесло существенный вклад в тенденции снижения затрат и получения массивных данных секвенирования. В Институте аналитического приборостроения РАН разрабатывается аппаратно-программный комплекс (АПК) для расшифровки последовательности нуклеиновых кислот методом массового параллельного секвенирования (Нанофор СПС). Алгоритмы обработки изображений, входящие в состав АПК, играют существенную роль в решении задач расшифровки генома. Финальной частью такого предварительного анализа сырых данных является процесс base-calling. Base-calling — это процесс определения нуклеотидного основания, которое генерирует соответствующее значение интенсивности в каналах флуоресценции для различных длин волн на кадрах изображения проточной ячейки для различных циклов секвенирования методом синтеза. Приведен обширный анализ различных подходов к решению задач base-calling и сводка распространенных процедур, доступных для платформы Illumina. Рассмотрены различные химические процессы, включенные в технологию секвенирования методом синтеза, вызывающие смещения в значениях регистрируемых интенсивностей, включая эффекты фазирование / префазирование (phasing/prephasing), затухания сигнала (signal decay) и перекрестные помехи (cross-talk). Определена обобщённая модель, в рамках которой рассматриваются возможные реализации. Рассмотрены возможные подходы машинного обучения (machine learning) для создания и оценки моделей, реализующих этап обработки base-calling. Подходы ML принимают различные формы, включая обучение без учителя (unsupervised), обучение с ча-стичным привлечением учителя (semi-supervised), обучение с учителем (supervised). В работе показана возможность применения различных алгоритмов машинного обучения на основе платформы Scikit-learn. Отдельной важной задачей является оптимальное выделение признаков, выделенных в обнаруженных кластерах на проточной ячейке для машинного обучения. Наконец, на ряде данных секвенирования для приборов MiSeq Illumina и Нанофор СПС показана перспективность метода машинного обучения для решения задачи base-calling.

Дмитрий Петрович Зегжда, Максим Олегович Калинин, Василий Михайлович Крундышев, Дарья Сергеевна Лаврова, Дмитрий Андреевич Москвин, Евгений Юрьевич Павленко

2021-08-13

Применение алгоритмов биоинформатики для обнаружения мутирующих кибератак

820-844

Функционал любой системы может быть представлен в виде совокупности команд, которые приводят к изменению состояния системы. Задача обнаружения атаки для сигнатурных систем обнаружения вторжений эквивалентна сопоставлению последовательностей команд, выполняемых защищаемой системой, с известными сигнатурами атак. Различные мутации в векторах атак (включая замену команд на равносильные, перестановку команд и их блоков, добавление мусорных и пустых команд) снижают эффективность и точность обнаружения вторжений. В статье проанализированы существующие решения в области биоинформатики, рассмотрена их применимость для идентификации мутирующих атак. Предложен новый подход к обнаружению атак на основе технологии суффиксных деревьев, используемой при сборке и проверке схожести геномных последовательностей. Применение алгоритмов биоинформатики позволяет добиться высокой точности обнаружения мутирующих атак на уровне современных систем обнаружения вторжений (более 90%), при этом превосходя их по экономичности использования памяти, быстродействию и устойчивости к изменениям векторов атак. Для улучшения показателей точности проведен ряд модификаций разработанного решения, вследствие которых точность обнаружения атак увеличена до 95% при уровне мутаций в последовательности до 10%. Метод может применяться для обнаружения вторжений как в классических компьютерных сетях, так и в современных реконфигурируемых сетевых инфраструктурах с ограниченными ресурсами (Интернет вещей, сети киберфизических объектов, сенсорные сети).

Лев Владимирович Уткин, Юлия Александровна Жук

2016-08-01

Полногеномный поиск ассоциаций с использованием матриц парных сравнений

225-240

Предлагается простой метод определения значимости объектов популяции при установлении ассоциации между однонуклеотидными полиморфизмами и количественными признаками в полногеномном поиске ассоциаций. На первом этапе сравниваются пары объектов популяции с точки зрения расстояния между ними по фенотипу и генотипу. На втором этапе строятся матрицы парных сравнений объектов и вычисляются веса объектов в соответствии с аддитивной и мультипликативной шкалами. Показывается, как можно модифицировать метод Лассо с использованием весов. Числовые эксперименты с реальными данными иллюстрируют предлагаемый метод.

Вячеслав Анатольевич Дюк, Сергей Борисович Рудницкий

2013-06-01

Лаборатория биомедицинской информатики СПИИРАН

384-409

Обсуждается смысл терминов «биоинформатика», «медицинская информатика», «биомедицинская информатика» применительно к целям, задачам и методам последней. Обосновывается наиболее полное на наш взгляд определение биомедицинской информатики. Приводятся вехи истории биомедицинской информатики в России и основные научные школы по этому направлению, возглавляемые лидерами отечественной науки. Рассматриваются деятельность лаборатории биомедицинской информатики и особенности решения задач биомедицинской информатики в СПИИРАН

1 - 4 из 4 результатов

Поиск статей

Импакт-фактор

Разделы

Мы в сети

Обратная связь