В последние десятилетия все большую популярность набирают NoSQL базы данных, и все чаще разработчикам и администраторам таких баз по той или иной причине приходится решать задачу миграции баз данных из реляционной модели в модель NoSQL, например документно-ориентированную базу данных MongoDB. Описывается подход к такой миграции данных на основе теории множеств. Предлагаются правила для определения совокупности коллекций со вложенными документами NoSQL базы данных типа ключ-документ, оптимальной по времени выполнения поисковых запросов. Оптимизация числа коллекций и их структуры проводится с учетом атрибутов объектов базы данных, участвующих в поисковых запросах. Исходными данными являются свойства объектов (атрибуты, связи между атрибутами), информация о которых хранится в базе данных, и свойства запросов, которые наиболее часто выполняются или скорость их выполнения максимальна. В правилах учитываются основные типы связей (1-1, 1-М, М-М), свойственные реляционной модели. Рассматриваемая совокупность правил является дополнением к методу создания коллекций без вложенных документов. Также приводится методика для определения, в каких случаях какие методы надо использовать, чтобы сделать работу с базами данных более эффективной. В заключении приведены результаты тестирования предлагаемого метода на базах данных с различными начальными схемами. Результаты экспериментов показывают, что предлагаемый метод помимо сокращения времени выполнения запросов позволяет также значительно сократить объем памяти, необходимый для хранения данных в новой базе данных.
В статье предлагается рассматривать задачу обработки SPARQL-запросов к онтологии как задачу удовлетворения ограничений. Кратко представлен формальный аппарат, служащий для описания задач удовлетворения ограничений с помощью специализированных матрицеподобных структур. Применение данного аппарата позволяет более эффективно по сравнению с табличным представлением описывать, хранить и обрабатывать нечисловые ограничения предметной области. Для ускорения обработки запросов к онтологиям большого объема предлагается применить ранее разработанный авторами метод распространения нечисловых ограничений. По сравнению с традиционным подходом к обработке SPARQL-запросов, базирующимся на динамическом программировании, предлагаемый метод позволяет ускорить их выполнение за счет «компактного» представления онтологии, а также применения оригинальных авторских правил редукции пространства поиска. На конкретном примере показано использование этого математического аппарата для снижения размерности пространства поиска при выполнении запроса к онтологии междисциплинарных знаний.
В работе рассматривается классификация поискового спама. Выделяются характерные признаки контента веб-страниц, различающихся для спама и не спама. Предлагается использование метода опорных векторов для определения принадлежности веб-страницы к спаму. Приводятся результаты проведенных экспериментов.
Целью работы является создание алгоритма генерации тезауруса синонимов для названий продуктов. Такие тезаурусы используются в современных поисковых машинах для расширения пользовательского запроса и улучшения качества поиска. При этом подходе из поискового индекса выбираются документы, включающие в себя не только слова, содержащиеся в запросе, но и близкие по смыслу термины. В ходе работы был реализован полуавтоматический метод обучения распознавателя именованных сущностей. Для валидации извлеченных сущностей был предложен метод полуавтоматической валидации.
1 - 4 из 4 результатов