Рассматривается задача обнаружения аномальных документов в текстовых коллекциях. Существующие методы выявления аномалий не универсальны и не показывают стабильный результат на разных наборах данных. Точность результатов зависит от выбора параметров на каждом из шагов алгоритма, и для разных коллекций оптимальны различные наборы параметров. Не все из существующих алгоритмов обнаружения аномалий эффективно работают с текстовыми данными, векторное представление которых характеризуется большой размерностью при сильной разреженности. Задача поиска аномалий рассматривается в следующей постановке: требуется проверить новый документ, загружаемый в прикладную интеллектуальную информационную систему (ПИИС), на соответствие хранящейся в ней однородной коллекции документов. В ПИИС, обрабатывающих юридически значимые документы, на методы обнаружения аномалий накладываются следующие ограничения: высокая точность, вычислительная эффективность, воспроизводимость результатов, а также объяснимость решения. Исследуются методы, удовлетворяющие этим условиям. В работе изучается возможность оценки текстовых документов по шкале аномальности путем внедрения в коллекцию заведомо инородного документа. Предложена стратегия обнаружения в документе новизны по отношению к коллекции, предполагающая обоснованный подбор методов и параметров. Показано, как на точность решения влияет выбор вариантов векторизации, принципов токенизации, методов снижения размерности и параметров алгоритмов поиска аномалий. Эксперимент проведен на двух однородных коллекциях нормативно-технических документов: стандартов в отношении информационных технологий и в сфере железных дорог. Использовались подходы: вычисление индекса аномальности как расстояния Хеллингера между распределениями близости документов к центру коллекции и к инородному документу; оптимизация алгоритмов поиска аномалий в зависимости от методов векторизации и снижения размерности. Векторное пространство строилось с помощью преобразования TF-IDF и тематического моделирования ARTM. Тестировались алгоритмы Isolation Forest (изолирующий лес), Local Outlier Factor (локальный фактор выброса), OneClass SVM (вариант метода опорных векторов). Эксперимент подтвердил эффективность предложенной оптимизационной стратегии для определения подходящего метода обнаружения аномалий для заданной текстовой коллекции. При поиске аномалии в рамках тематической кластеризации юридически значимых документов эффективен метод изолирующего леса. При векторизации документов по TF-IDF целесообразно подобрать оптимальные параметры словаря и использовать метод опорных векторов с соответствующей функцией преобразования признакового пространства.
В последние десятилетия все большую популярность набирают NoSQL базы данных, и все чаще разработчикам и администраторам таких баз по той или иной причине приходится решать задачу миграции баз данных из реляционной модели в модель NoSQL, например документно-ориентированную базу данных MongoDB. Описывается подход к такой миграции данных на основе теории множеств. Предлагаются правила для определения совокупности коллекций со вложенными документами NoSQL базы данных типа ключ-документ, оптимальной по времени выполнения поисковых запросов. Оптимизация числа коллекций и их структуры проводится с учетом атрибутов объектов базы данных, участвующих в поисковых запросах. Исходными данными являются свойства объектов (атрибуты, связи между атрибутами), информация о которых хранится в базе данных, и свойства запросов, которые наиболее часто выполняются или скорость их выполнения максимальна. В правилах учитываются основные типы связей (1-1, 1-М, М-М), свойственные реляционной модели. Рассматриваемая совокупность правил является дополнением к методу создания коллекций без вложенных документов. Также приводится методика для определения, в каких случаях какие методы надо использовать, чтобы сделать работу с базами данных более эффективной. В заключении приведены результаты тестирования предлагаемого метода на базах данных с различными начальными схемами. Результаты экспериментов показывают, что предлагаемый метод помимо сокращения времени выполнения запросов позволяет также значительно сократить объем памяти, необходимый для хранения данных в новой базе данных.
К настоящему времени накоплено огромное количество данных о разнообразии организмов. Сохранить и использовать эти данные для решения научных задач помогают базы данных. В литературе описано несколько десятков баз, предназначенных для хранения данных о биоразнообразии. Каждая имеет оригинальную структуру, которая плохо согласуется со структурами других баз, что, в свою очередь, затрудняет обмен данными и формирование массивов больших данных о биоразнообразии.
Причиной сложившейся ситуации является отсутствие формальных определений универсальных компонент, из которых можно построить базу с любыми данными о разнообразии организмов. Анализ литературы и исследования авторов показывают, что универсальные компоненты есть в характеристиках любых организмов. Например, таксономическое название организма и место его поимки. Таких компонент шесть, и они отвечают на один из шести вопросов: что, где, когда, кто, откуда и куда . Первые три компоненты – что, где, когда – являются фундаментальными. Они составляют минимальную основу, которая описывает экземпляр таксона в пространственно-временных координатах. Каждой компоненте соответствует отдельная таблица базы данных. Эти таблицы связаны с таблицей данных об организме (особи) и не связаны между собой. Атрибуты связей между особью и таблицами компонент хранятся в промежуточных таблицах.
Процесс создания любой базы о разнообразии живых существ начинается с определения таблицы экземпляров организмов. Ее необходимо использовать, даже если нет явных данных об организмах. Тогда следует ввести виртуальные организмы и связать с ними остальные компоненты при помощи промежуточных таблиц. Последние состыковываются с прочими данными. Минимальные структуры всех таблиц, связи между ними и примеры построения баз данных описаны в настоящей работе.
1 - 3 из 3 результатов