Сельское хозяйство является одним из основных источников экономического роста в России; мировое производство яблок в 2019 году составило 87 миллионов тонн. Болезни листьев яблони являются основной причиной ежегодного сокращения производства яблок, что приводит к огромным экономическим потерям. Автоматизированные методы выявления болезней листьев яблони позволяют сократить трудоемкую работу по мониторингу яблоневых садов и раннему выявлению симптомов болезни. В этой статье предложена многослойная сверточная нейронная сеть (MCNN), которая способна классифицировать листья яблони по одной из следующих категорий: парша яблони, черная гниль и болезни яблоневой кедровой ржавчины, используя недавно созданный набор данных. В этом методе мы использовали методы аффинного преобразования и перспективного преобразования для увеличения размера набора данных. После этого операции предварительной обработки на основе метода кадрирования и выравнивания гистограммы OpenCV использовались для улучшения предлагаемого набора данных изображения. Экспериментальные результаты показывают, что система достигает точности обучения 98,40% и точности проверки 98,47% для предложенного набора данных изображения с меньшим количеством параметров обучения. Результаты предполагают более высокую точность классификации предложенной модели MCNN по сравнению с другими известными современными подходами. Эта предложенная модель может использоваться для обнаружения и классификации других типов болезней яблони из разных наборов данных изображений.
Проанализированы предложенные ранее исследователями рекомендации по применению методов многомерного оценивания объектов. Отмечена слабая обоснованность этих рекомендаций, следующая из поверхностной систематизации методов многомерного оценивания. Рекомендации ориентированы не на классы задач многомерного оценивания объектов, а на различные области человеческой деятельности. Однако в каждой сфере человеческой деятельности имеет место широкий спектр задач оценивания объектов различной природы. В связи с этим признана актуальность более тщательной систематизации методов многомерного оценивания.
Учитывая разноплановость методов многомерного оценивания, решено ограничиться систематизацией методов, применяющих оценочные функции, и на этой основе предложить общие рекомендации по их применению.
Обзор методов многомерного оценивания с единой позиции потребовал уточнения применяемой в них терминологии. На основе формальной модели установлены отношения между понятиями «предпочтение», «критерий» и «показатель». Для выделения методов, применяющих оценочные функции, введено понятие целевого значения показателя. Относительно его расположения на шкале показателя введены понятия идеальной и реальной целей. Соответствующие этим целям критерии разделены на целевые и ограничительные. С применением предложенной терминологии проанализированы наиболее известные методы многомерного оценивания. Из них выделена группа методов, применяющих оценочные функции.
Рассмотрены варианты оценочных функций, создаваемых на основе критерия и постулатов теории ценности и полезности. На основе сходства областей определения и значений различных оценочных функций установлена взаимосвязь между ними. Относительно целевого значения показателя они разделены на функции достижения цели и функции отклонения от цели. Показана взаимная дополнительность этих функций. Выделена группа функций отклонения от цели, которая позволяет упорядочивать объекты раздельно по штрафам и поощрениям относительно достижения реальной цели. Для отношения соответствия введено понятие нормы. На примере медицинских анализов показано практическое применение функций отклонения от нормы с применением как минимаксной, так и средневзвешенной обобщающей функции для установления рейтинга на множестве объектов.
Выявленное в процессе исследования сходство и различие оценочных функций положено в основу классификации использующих их методов многомерного оценивания. Различие оценочных функций по трудоемкости их создания отражено в предложенной методике их применения.
Многие исследования в области управления знаниями указывают на то, что предприятия и организации, поддерживающие систематический обмен, передачу и повторное использование знаний, могут рассчитывать на значительные выгоды. Однако не так много исследований выполнено в рамках анализа технологий для повторного использования знаний, которые применяются в организациях. Исходя из классификации подходов к повторному использованию знаний, в статье рассматривается состояние в этой области применительно к производственным сетях (с уделением особого внимания сетям малых и средних предприятий - МСП). Цель статьи двоякая: для производственных сетей это исследование того, какие виды повторно используемых знаний (с точки зрения разрабатываемой классификации) наиболее актуальны для таких сетей; для подхода к классификации методов повторного использования знаний это уточнении данного подхода и его обоснование применительно к производственным сетям. Основными результатами статьи являются: (1) анализ ситуаций повторного использования знаний в сетях МСП, (2) оценка предложенного подхода к классификации методов повторного использования знаний применительно к различным ситуациям и (3) дальнейшее уточнение и валидация предложенного подхода.
В работе рассмотрен подход к многозначной классификации текстовых документов на основе вероятностного тематического моделирования. На базе корпуса SCTM-ru построена тематическая модель методом обучения с учителем, приведен алгоритм многозначной классификации. Описан состав программного прототипа, реализующего предложенный подход.
В работе рассматриваются различные методы обнаружения сетевых атак. Основное внимание уделяется построению обобщенной классификационной схемы методов обнаружения сетевых атак, представлению сущности каждого из рассмотренных методов и их сравнительному анализу в рамках предложенной классификационной схемы.
В работе приводятся результаты классификации электроэнцефалографических (ЭЭГ) паттернов кинестетического воображения движений пальцами и кистью одной руки в заданном ритме на основе метода опорных векторов и разработанного комитета искусственных нейронных сетей. Показано, что точность попарной классификации ЭЭГ-паттернов воображаемых движений с использованием комитета искусственных нейронных сетей в среднем была выше, чем при использовании классификатора на основе метода опорных векторов. Выявлена возможность увеличения точности распознавания воображаемых движений мелкой моторики при использовании индивидуального подхода к выбору параметров классификации паттерна ЭЭГ сигнала.
В работе продолжается рассмотрение основных результатов, моделей и методов, разработанных в области ассоциативной классификации, ориентированных на обработку данных большого объема. Дается анализ подходов, методов и алгоритмов, разработанных в области ассоциативной классификации к настоящему времени. В заключении формулируются достоинства и недостатки ассоциативной классификации как модели машинного обучения, а также дается оценка перспектив ее использования в интеллектуальном анализе больших данных.
В работе описаны основные результаты, модели и методы, разработанные в области ассоциативной классификации, ориентированные на обработку данных большого объема. В работе дается постановка задачи ассоциативной классификации, вводится необходимая терминология и формальные обозначения, используемые в ассоциативной классификации. Приводится описание и сравнительный анализ ранних подходов, методов и конкретных алгоритмов ассоциативной классификации. Дается оценка вклада первых работ, посвящённых ассоциативной классификации, в развитие этого направления.
Интенсивное развитие цифровых систем неразрушающего рентгеновского контроля открывает возможности по автоматизации этого процесса для разрабатываемых и производимых изделий микроэлектроники с неоднородной структурой. В работе предложена классификация цифровых систем неразрушающего рентгеновского контроля по следующим критериям: способ формирования рентгеновского изображения, тип детектора, способ считывания рентгеновского изображения с детектора. Проведен анализ цифровых систем неразрушающего рентгеновского контроля изделий микроэлектроники и определены системы, наиболее восприимчивые к автоматизации.
Мониторинг окружающей среды имеет важнейшее значение в современном мире для обеспечения безопасного и комфортного проживания людей, он позволяет понять, как меняется наша планета и ее климат, какую роль в этих изменениях играют антропогенные и техногенные факторы. Для мониторинга и прогнозирования используются различные методологии и модели принятия решений, данная статья представляет собой обзор наиболее интересных моделей наземно-космического мониторинга эколого-технологических объектов, которые были исследованы в рамках проекта ИНФРОМ.
В данной статье проведена классификация информационных систем (ИС) на монотонные и немонотонные системы первого и второго типа. Показано, что классификационные признаки данной систематизации хранятся в геноме структуры исследуемой системы. Результаты морфологического анализа ИС позволяют дополнительно привлекать для комплексного ее исследования математический аппарат нечетких графов и методы когнитивного моделирования.
Статья посвящена теоретическому рассмотрению психологических особенностей, составляющих основу уязвимостей пользователя, находящегося под угрозой социо-инженерной атаки. Для удобства последующего изучения социо-инженерных атак и их профилактики у пользователей представлена подробная классификация психологических особенностей по различным параметрам, таким как характер протекания, характер вызываемого действия пользователя и др. При построении классификации было выделено 2 основных класса: психологические качества и социальные и личные факторы, влияющие на уязвимость человека. Также представлено дальнейшее дробление этих классов на подклассы, выявлены взаимосвязи между уязвимостями и представлены соответствующие блок-схемы и таблицы, отражающие эти характеристики. На основании проделанной работы делается вывод о дальнейшем направлении исследования.
Предлагаются основные принципы классификации и моделирования генетического кода на примере баз данных и знаний и гетерогенных нейронных сетей.
Предложена общесистемная структурно-функциональная модель управления состояниями технической системы для штатных условий ее функционирования. Дано определение понятия "нештатная ситуация процесса управления техническими системами". Обоснована система классификации внештатных ситуаций, использование которой позволяет детализировать возможные варианты решений, которые необходимо принимать при возникновении и выявлении таких ситуаций.
Рассматриваются сравнительные возможности различных групп алгоритмов классификации объектов. В частности, рассматривается группа спектральных алгоритмов, оперирующих данными о спектрах расстояний между объектами. Рассматриваются также более широкие в общем случае группы разностных алгоритмов, оперирующих данными о шкалах различий между объектами, и еще более широкой группы алгоритмов, инвариантных к смене кодировки признаков. Показано, что для множеств в пространстве двоичных признаков возможности группы спектральных алгоритмов совпадают с возможностями разностных алгоритмов, а для множеств с нечетным числом объектов — и с возможностями алгоритмов, инвариантных к смене кодировки признаков.
Продлённая аутентификация позволяет избавиться от недостатков, присущих статической аутентификации, например, идентификаторы могут быть потеряны или забыты, пользователь совершает только первоначальный вход в систему, что может быть опасно не только для областей, требующих обеспечения высокого уровня безопасности, но и для обычного офиса. Динамическая проверка пользователя во время всего сеанса работы может повысить безопасность системы, поскольку во время работы пользователь может подвергнуться воздействию со стороны злоумышленника (например, быть атакованным) или намеренно передать ему права. В таком случае оперировать машиной будет не пользователь, который выполнил первоначальный вход. Классификация пользователей во время работы системы позволит ограничить доступ к важным данным, которые могут быть получены злоумышленником. Во время исследования были изучены методы и наборы данных, использующихся для продлённой аутентификации. Затем был сделан выбор наборов данных, которые использовались в дальнейшем исследовании: данные о движении смартфона и смарт-часов (WISDM) и динамике активности мыши (Chao Shen’s, DFL, Balabit). Помочь улучшить результаты работы моделей при классификации может предварительный отбор признаков, например, через оценивание их информативности. Уменьшение размерности признаков позволяет снизить требования к устройствам, которые будут использоваться при их обработке, повысить объём перебора значений параметров классификаторов при одинаковых временных затратах, тем самым потенциально повысить долю правильных ответов при классификации за счёт более полного перебора параметров значений. Для оценивания информативности использовались метод Шеннона, а также алгоритмы, встроенные в программы для анализа данных и машинного обучения (WEKA: Machine Learning Software и RapidMiner). В ходе исследования были выполнены расчёты информативности каждого признака в выбранных для исследования наборах данных, затем с помощью RapidMiner были проведены эксперименты по классификации пользователей с последовательным уменьшением количества используемых при классификации признаков с шагом в 20%. В результате была сформирована таблица с рекомендуемыми наборами признаков для каждого набора данных, а также построены графики зависимостей точности и времени работы различных моделей от количества используемых при классификации признаков.
Алгоритмы глубокого обучения сыграли важную роль в решении многих комплексных задач, за счет автоматического изучения правил (алгоритмов) на основе выборочных данных, которые затем сопоставляют входные данные с соответствующими выходными данными. Цель работы: выполнить классификацию земных покровов (LULC) спутниковых снимков Московской области на основе обучающих данных и сравнить точность классификации, полученной с применением ряда моделей глубокого обучения. Методы: точность, достигаемая при классификации земных покровов с использованием алгоритмов глубокого обучения и данных космической съёмки, зависит как от конкретной модели глубокого обучения, так и от используемой обучающей выборки. Мы использовали наиболее современные модели глубокого обучения и обучения с подкреплением вкупе с релевантным набором обучающих данных. Для тонкой корректировки параметров моделей и подготовки обучающего набора данных применялись разливные методы, в том числе аугментация данных. Результаты: Применены четыре модели глубокого обучения на основе архитектур Residual Network (ResNet) и Visual Geometry Group (VGG) на основе обучения с подкреплением: ResNet50, ResNet152, VGG16 и VGG19. Последующее до-обучение моделей выполнялось с использованием обучающих данных, собранных спутником ДЗЗ Sentinel-2 на территории Московской области. На основе оценки результатов, архитектура ResNet50 дала наиболее высокую точность классификации земных покровов на территории выбранного региона. Практическая значимость: авторы разработали алгоритм обучения четырёх моделей глубокого обучения с последующей классификацией фрагментов входного космического снимка с присвоением одного из 10 классов (однолетние культуры, лесной покров, травянистая растительность, автодороги и шоссе, промышленная застройка, пастбища, многолетние культуры, жилая застройка, реки и озера).
Накопление данных о процессах управления проектами и типовых решениях сделало актуальными исследования, связанные с применением методов инженерии знаний для многокритериального поиска вариантов, которые задают оптимальные настройки параметров проектной среды. Цель: разработка методики поиска и визуализации групп проектов, которые могут быть оценены на основе концепции доминирования и интерпретироваться в терминах проектных переменных и показателей эффективности. Методы: обогащение выборки с сохранением неявной связи между проектными переменными и показателями эффективности осуществляется с помощью прогнозирующей нейросетевой модели. Для обнаружения фронта Парето в многомерном критериальном пространстве используется набор генетических алгоритмов. Онтология проектов определяется после кластеризации вариантов в пространстве решений и преобразования кластерной структуры в критериальное пространство. Автоматизация поиска в многомерном пространстве зоны наибольшей кривизны фронта Парето, определяющей равновесные проектные решения, их визуализация и интерпретация осуществляются с помощью плоского дерева решений. Результаты: плоское дерево строится при любой размерности критериального пространства и имеет структуру, которая имеет топологическое соответствие с проекциями разделяемых образов кластеров из многомерного пространства на плоскость. Для различных видов преобразований и корреляций между показателями эффективности и проектными переменными показано, что участки наибольшей кривизны фронта Парето определяются либо содержимым целого кластера, либо частью вариантов, представляющих “лучший” кластер. Если на плоском дереве к правому верхнему углу примыкает неразделенный прямоугольник кластера, то его представители в критериальном пространстве хорошо отделены от остальных кластеров и при максимизации показателей эффективности наиболее приближены к идеальной точке. Все представители такого кластера являются эффективными решениями. Если кластер-победитель содержит внутри дерева решений доминируемые варианты, то “лучший” кластер представляют оставшиеся варианты, которые задают оптимальные настройки проектных переменных. Практическая значимость: предложенная методика поиска и визуализации групп проектов может найти применение при выборе условий ресурсного и организационно-экономического моделирования проектной среды, обеспечивающих оптимизацию рисков, стоимостных, функциональных и временных критериев.
Резкое ухудшение состояния на фоне развития жизнеугрожающих аритмий с симптомами острой сердечной недостаточности (ОСН), синдрома полиорганной недостаточности (СПОН) или отёка головного мозга (ОГМ) может привести к гибели пациента. Поскольку известные методы автоматизированной диагностики в настоящий момент не могут достаточно точно и своевременно определить, что пациент находится в жизнеугрожающем состоянии, ведущем к летальному исходу от ОСН, СПОН или ОГМ, существует необходимость в разработке соответствующих методов. Одним из способов выявить предикторы такого состояния является применение методов машинного обучения к накопленным наборам данных. В данной статье решалась задача проверки с помощью методов анализа данных гипотезы о наличии зависимости между результатами измерения ЭКГ и последующим летальным исходом пациента в результате развития СПОН, ОСН или ОГМ. Был предложен метод комбинирования данных, сводящейся к тому, чтобы на основе характеристик ЭКГ для каждого пациента предложить алгоритм, на вход которого подаются пары интервалов RR и QT, а на выходе получается число, которое является характеристикой состояния пациента. На основе полученной характеристики производится классификация пациентов на группы: основную (пациенты с летальным исходом) и контрольную (выжившие пациенты). Полученная модель классификации закладывает потенциал для разработки методов идентификации клинического состояния пациента, что позволит автоматизировать получение сигнала о его ухудшении. Новизна результата заключается в подтверждении гипотезы о наличии зависимости между результатами измерения ЭКГ и последующим летальным исходом пациента в результате развития СПОН, ОСН или ОГМ, а также предложенном критерии и модели классификации, которые позволяют решать актуальную задачу автоматической фиксации ухудшения состояния пациентов.
В настоящее время Интернет и социальные сети как среда распространения цифрового сетевого контента становятся одной их важнейших угроз персональной, общественной и государственной информационной безопасности. Возникает необходимость защиты личности, общества и государства от нежелательной информации. В научно-методическом плане проблема защиты от нежелательной информации имеет крайне небольшое количество решений. Этим определяется актуальность представленных в статье результатов, направленных на разработку интеллектуальной системы аналитической обработки цифрового сетевого контента для защиты от нежелательной информации. В статье рассматриваются концептуальные основы построения такой системы, раскрывающие содержание понятия нежелательной информации и представляющие общую архитектуру системы. Приводятся модели и алгоритмы функционирования наиболее характерных компонентов системы, таких как компонент распределенного сканирования сети, компонент многоаспектной классификации сетевых информационных объектов, компонент устранения неполноты и противоречивости и компонент принятия решений. Представлены результаты реализации и экспериментальной оценки системных компонентов, которые продемонстрировали способность системы отвечать предъявляемым требованиям по полноте и точности обнаружения и противодействию нежелательной информации в условиях ее неполноты и противоречивости.
В условиях текущей четвертой промышленной революции вместе с развитием компьютерных технологий увеличивается и количество текстовых данных. Следует понимать природу и характеристики этих данных, чтобы применять необходимые методологии. Автоматическая обработка текста экономит время и ресурсы существующих систем. Классификация текста является одним из основных приложений обработки естественного языка с использованием таких методов, как анализ тональности текста, разметка данных и так далее. В частности, недавние достижения в области глубокого обучения показывают, что эти методы хорошо подходят для классификации документов. Они продемонстрировали свою эффективность в классификации англоязычных текстов. Однако по проблеме классификации вьетнамских текстов существует не так много исследований. Последние созданные модели глубокого обучения для классификации вьетнамского текста показали заметные улучшения, но тем не менее этого недостаточно. Предлагается автоматическая система на основе длинной краткосрочной памяти и Word2Vec моделей, которая повышает точность классификации текстов. Предлагаемая модель продемонстрировала более высокие результаты классификации вьетнамских текстов по сравнению с другими традиционными методами. При оценке данных вьетнамского текста предлагаемая модель показывает точность классификации более 90%, поэтому может быть использована в реальном приложении.
Представлено сравнение дискретных скрытых марковских моделей и свёрточных нейронных сетей для классификации изображений. После разбивки изображений на части целесообразно получить векторы, которые представляют локальные визуальные структуры, одновременно определяющие изображения глобально через пространственную последовательность. С использованием методов кластеризации создается алфавит из указанных векторов, а затем конструируются последовательности символов, которые описывают статистические модели, соответствующие классам изображений. Скрытые марковские модели в сочетании с методами квантования могут обрабатывать шум и искажения в наблюдениях для решения проблем компьютерного зрения, таких как классификация изображений с изменением освещения и перспективы.
Протестированы архитектуры, основанные на трех, шести и девяти скрытых состояниях, в пользу скорости обнаружения и низкого использования памяти. Также были протестированы два типа ансамблевых моделей. Точность предлагаемого метода была оценена с помощью общедоступных данных; полученные результаты оказались сравнимы с известными оценками при использовании тонко настроенных свёрточных нейронных сетей, но требовали значительно меньших вычислительных ресурсов. Результат представляет интерес при разработке мобильных роботов с вычислительными устройствами, имеющими ограниченное время автономной работы, но требующими способности обнаруживать и добавлять новые объекты в свои системы классификации.
Рассматривается задача нахождения минимального по размеру множества атрибутов, используемых для распределения многомерных объектов по классам, например на основе деревьев решений. Задача имеет важное значение при разработке высокопроизводительных и точных классифицирующих систем. Приведен краткий сравнительный обзор известных методов. Задача сформулирована как отыскание минимального (взвешенного) покрытия на различающей 0,1-матрице, которая служит для описания возможности атрибутов разделять пары объектов из разных классов. Приведено описание способа построения различающей матрицы. Сформулированы и решены на основе общего разрешающего принципа групповых резолюций следующие варианты задачи: отыскание минимального по размеру множества атрибутов на заданном входном наборе данных; отыскание минимального по размеру множества атрибутов с минимальным суммарным весом атрибутов (в качестве весов атрибутов можно использовать величины, определяемые на основе известных алгоритмов, например на основе метода RELIEF); нахождение оптимального взвешенного нечеткого покрытия для случая, когда элементы различающей матрицы принимают значения в диапазоне [0,1]; определение статистически оптимального покрытия различающей матрицы (например, для входных наборов данных больших размеров). Статистически оптимальный алгоритм позволяет ограничить время решения полиномом от размеров задачи и плотности единичных элементов в различающей матрице и при этом обеспечить близкую к единице вероятность отыскания точного решения.
Таким образом, предлагается общий подход к определению минимального по размеру множества атрибутов, учитывающий различные особенности в постановке задачи, что отличает данный подход от известных. Изложение содержит многочисленные иллюстрации с целью придать ему максимальную ясность. Ряд теоретических положений, приводимых в статье, основывается на ранее опубликованных результатах. В заключительной части представлены результаты экспериментов, а также сведения о сокращении размерности задачи о покрытии для больших массивов данных. Отмечаются некоторые перспективные направления изложенного подхода, включая работу с неполными и качественными данными, интегрировании управляющей модели в систему классификации данных.
Разрабатывается контекстно-управляемый подход к интеллектуальной поддержке принятия решений на основе цифровых следов пользователей. Рассматриваются вопросы использования концепции жизни человека в цифровой среде при интеллектуальной поддержке принятия решений. Исследуются цели обращения к цифровым следам человека в различных проблемных областях и выявляются подходы к моделированию жизни человека в цифровой среде. Предлагается подход к интеллектуальной поддержке принятия решений, в котором цифровые следы служат источником информации для выявления предпочтений пользователей и их поведения при принятии решений. Развиваются взгляды на поддержку принятия решений на основе учета следов пользователей в цифровой среде. Результатами исследования являются спецификация требований к интеллектуальной поддержке принятия решений на основе цифровых следов пользователя, принципы, концептуальная и информационная модели такой поддержки.
В результате анализа выявлено, что социальные сети (Вконтакте, Facebook), тематические сообщества в сетях микроблогинга (Twitter), ресурсы для путешественников (TripAdvisor), транспортные порталы (Autostrada) являются источником актуальной и оперативной информации о дорожно-транспортной обстановке, качестве предоставляемых транспортных услуг и степени удовлетворенности пассажиров уровнем транспортного обслуживания. Однако существующие системы транспортного мониторинга не содержат программных инструментов, способных осуществлять сбор и анализ дорожно-транспортной информации в среде Интернет. В настоящей работе рассматривается задача построения системы автоматического извлечения и классификации дорожно-транспортной информации с транспортных интернет-порталов и апробация разработанной системы для анализа транспортных сетей Крыма и города Севастополя. Для решения этой задачи проанализированы библиотеки с открытым исходным кодом для тематического сбора и исследования данных. Разработан алгоритм для извлечения и анализа текстов. Осуществлена разработка краулера с использованием пакета Scrapy на языке Python3 и собраны отзывы пользователей с портала http://autostrada.info/ru о состоянии транспортной системы Крыма и города Севастополя. Для лемматизации текстов и векторного преобразования текстов были рассмотрены методы tf, idf, tf-idf и их реализация в библиотеке Scikit-Learn: CountVectorizer и TF-IDF Vectorizer. Для обработки текстов были рассмотрены методы Bag-of-Words и n-gram. В ходе разработки модели классификатора рассмотрены наивный байесовский алгоритм (MultinomialNB) и модель линейного классификатора с оптимизацией стохастического градиентного спуска (SGDClassifier). В качестве обучающей выборки использовался корпус объемом 225 тысяч размеченных текстов с ресурса Twitter. Проведено обучение классификатора, в ходе которого использовалась стратегия кросс-валидации и метод ShuffleSplit. Проведено тестирование и сравнение результатов тоновой классификации. По результатам валидации лучшей оказалась линейная модель со схемой n-грамм [1, 3] и векторизатором TF-IDF. В ходе апробации разработанной системы был проведен сбор и анализ отзывов, относящихся к качеству транспортных сетей республики Крым и города Севастополя. Сделаны выводы и определены перспективы дальнейшего функционального развития разрабатываемого инструментария.
Анализируется текущее состояние в области защиты от ложной информации в компьютерных сетях и формулируются актуальные проблемы, связанные с этой защитой. Предлагается подход к оценке мероприятий защиты от такой информации на основе использования марковской модели дезинформирования. Раскрывается архитектура перспективной системы анализа информации в компьютерных сетях по требованиям достоверности. В рамках этой архитектуры рассматриваются усовершенствованные методы анализа достоверности текстов. Предлагается комплексный подход к использованию известных и предложенных методов для оперативного выявления ложной информации в компьютерных сетях. Кроме того, метод может применяться в области борьбы с киберпреступностью и терроризмом для поиска сетевых ресурсов и коммуникационных площадок, которые могут быть использованы для организации противоправной деятельности.
Предложен алгоритм формирования системы эффективных классификационных характеристик, основанный на концепции усеченного перебора и использовании информации об индивидуальных показателях классификации при выборе гранул. Его вычислительная эффективность обеспечивается применением операций простого сравнения результатов классификации отдельных классов при выборе наиболее информативной гранулы на очередной итерации и использованием технологии параллельных вычислений на графических процессорах.
Рассмотрены известные методы усеченного перебора для формирования систем эффективных классификационных характеристик. Обсуждаются результаты поиска информативных признаков на примере решения задачи классификации облачности на основе применения вероятностной нейронной сети и информации о текстуре спутниковых снимков MODIS. Представлено описание используемого классификатора и статистического подхода к описанию текстуры изображений.
Определены наиболее эффективные классификационные характеристики облачности путем сравнения комбинаций текстурных признаков, полученных с помощью методов усеченного перебора. Показаны результаты исследования динамики изменения оценки правильно проклассифицированных облаков при выполнении различных алгоритмов поиска информативных признаков. Установлено, что разработанный в данной работе метод позволяет уменьшить разброс значений вероятности правильной классификации отдельных классов.
В статье рассматривается новый подход к выполнению классификации текстов, учитывающий наличие различных типов классификационных признаков (бинарных, номинальных, порядковых и интервальных).
Особенность представленного подхода состоит в поэтапном проведении классификации, которое дает возможность не приводить разнотипные признаки, характеризующие текст, к единому диапазону. Также в статье предлагается набор классификационных признаков для проведения классификации русскоязычных текстов на основании их предполагаемой возрастной аудитории.
В работе описывается вычислительный эксперимент с использованием текстов, включенных в Национальный корпус русского языка. Выборка включает в себя заведомо качественные и максимально разнообразные тексты, написанные на русском языке. Документы, входящие в состав рассматриваемой выборки, разделены в соответствии с мнениями экспертов-лингвистов на две категории — взрослые и детские. Таким образом, для обучения и тестирования использовались тексты, размеченные экспертами.
В статье приведены значения точности классификации текстов, полученные в результате проведения серии экспериментов по автоматическому определению возрастных категорий адресатов текста (для кого написан текст — для детей или для взрослых).
Представлен алгоритм классификации образцов многомерных групповых точечных объектов. Поиск осуществляется на основе комбинаторного поиска соразмерных фрагментов матриц попарных отношений на множестве шаблонов. Решение об отнесении образца к тому или иному шаблону принимается по критерию минимума евклидового расстояния. Представленный подход к распознаванию позволяет синтезировать инвариантные (относительно вращения, масштабирования или смещения системы координат) описания вторичных признаков, а также использовать достаточно мощный инструментарий теории многомерного и метрического шкалирования в компенсации искажений распознанных образов групповых точечных объектов. В алгоритме реализована процедура статистических испытаний Монте-Карло, в рамках которого каждая точка случайным образом размещенная в предполагаемой окрестности искомых координат проверяется по условию минимума квадратического показателя сходства. Приведены пример и результаты использования алгоритма для идентификации и восстановления искаженных и подвергнутых воздействию координатных шумов радиоизображений, представленных выборкой шаблонов "блестящих" точек.
Представлен алгоритм классификации групповых точечных объектов (ГТО), основанный на сравнительном анализе фрагментов искаженных образов и шаблонов ГТО. В качестве фрагментов использованы последовательности элементов ГТО различной длины. В качестве признаков классификации выступают попарные и угловые межточечные расстояния. При решении задачи классификации используется вероятностная мера близости, задаваемая экспертом с помощью функции принадлежности и закона распределения вероятности дискретных значений признаков классифицируемых объектов. Алгоритм включает следующие этапы: поиск и сравнение состава фрагментов искаженных образов и шаблонов ГТО; формирование вероятностной оценки близости искаженного образа ГТО и каждого шаблона в пространстве рассматриваемых признаков по результатам анализа каждого фрагмента; накопление полученных вероятностей по результатам анализа всех фрагментов искаженного образа; ранжирование полученных вероятностей отнесения искаженного образа к шаблонам ГТО; определение наиболее вероятного шаблона. В алгоритме предусмотрена возможность уточнения класса искаженного образа ГТО за счет использования логических правил и аналитических выражений рассматриваемой предметной области. Приведены пример и результаты применения данного алгоритма для решения задачи классификации реальных ГТО на основе анализа их фрагментов в виде последовательностей из двух и трех элементов.
Рассматриваются основные способы применения интеллектуальных методов и алгоритмов, синтезированных на их основе, представления данных сетевого мониторинга для управления рисками информационной безопасности защищенных мультисервисных сетей (ЗМС). Разработана и исследована математическая модель интеллектуального представления данных для анализа и оценки риска информационной безопасности ЗМС.
Трактовка функций, применяемых различными методами оптимизации, ожидаемой полезностью, естественной для принятия решений, позволила выделить две группы методов – критериального и функционального выбора. Первые устанавливают предпочтения на значениях критериев, а вторые – на значениях функций, отражающих предпочтения на шкалах признаков. Роль видовых отличий отведена шкалам, в которых измеряются признаки. Такая трактовка функций, не зависящая от способа их создания, позволила рассматривать методы многокритериальной оптимизации и многомерной полезности с единых позиций. К группе методов функционального выбора отнесён и метод анализа иерархий, использующий функции приоритетов, вычисляемые на основе матриц парных сравнений. Полученная система методов позволяет сопоставлять их по качеству и оценивать эффективность решения конкретных задач.
В статье представляется метод построения классификатора для классификации текстов по тональности на два и на три класса (положительные и негативные; положительные, нейтральные и негативные тексты). Представляются результаты экспериментов, показывающие высокую точность работы метода не зависимо от предметной области к которой принадлежит текст. Эффективность представленного метода подтверждается экспериментами на текстовой коллекции блогов с разметкой по оценочной тональности семинара РОМИП-2012. Для оценки используются метрики: precision, recall, accuracy и F-меры. Значение F-меры для предлагаемого метода при классификации на 2 класса составляет 93%. Помимо блоговой коллекции РОМИП-2012, используются коллекция новостей и коллекция текстов социальных сетей.
В статье предлагается порождающая графическая вероятностная модель со скрытыми состояниями на основе нелинейных главных многообразий, заданных в виде сетки узлов, для решения задачи классификации временных последовательностей. В качестве метода аппроксимации обучающих данных сеткой узлов использован алгоритм самоорганизующихся карт Кохонена. Модель представлена в виде фактор-графа с описанием применяемых фактор-функций. Разработан метод обучения и вероятностного вывода на предлагаемой модели. Проведена оценка качества классификации предлагаемой модели в сравнении с существующими моделями (HMM, HCRF) на различных наборах данных из репозитория UCI, в том числе проведена сравнительная оценка при малом количестве обучающих данных.
В англоязычной и отечественной литературе работы, посвящённые проблемам дискретной оптимизации, носят обособленный характер. В основу систем поддержки принятия решений кладутся частные методы оптимизации. Это затрудняет выбор подходящего метода для решения задачи выбора. В работе предлагается рассматривать все методы оптимизации с точки зрения полезности признаков, участвующих в оценивании объектов. На основе систематизации критериев выбора показывается возможность интерпретации функций, применяемых в методах многокритериальной оптимизации, как простейших вариантов функции полезности. Как следствие, констатируется более высокая степень информативности по предпочтениям функций полезности по сравнению с другими функциями, используемыми в задачах оптимизации.
Работа посвящена проблеме безопасности файловых объектов формата Portable Document Format. Обобщаются существующие практики, нацеленные на выявление вредоносных документов. Формируется набор основных групп статических признаков вредоносных и безопасных документов. Собранные данные используются для построения системы автоматической классификации новых, ранее неизвестных документов, на основе методов интеллектуального анализа данных (Data Mining). Анализ результатов использования отдельных групп признаков позволяет сформировать новую модель представления документов, основанную на описании взаимосвязей и содержания их основных структурных элементов. Применение полученной модели позволяет оптимизировать целевую функцию систем обнаружения вредоносных документов в базисе требований к точности принятия решения и времени анализа.
Расматривается задача совместной обработки разнотипных биометрических данных, полученных в результате измерений пульса, микровибраций лица, и оценки уровня тревожности на основе психологического тестирования. В частности, находятся скрытые признаки, различающие две группы практически здоровых испытуемых: 1) людей различного пола и возраста; 2) беременных женщин. Приводятся предварительные результаты анализа экспериментальных данных методами data mining.
1 - 25 из 38 результатов