Рассматривается задача извлечения семантической информации из электронного документа, заданного в формате векторной графики и содержащего графическую модель (схему), построенную с помощью графического редактора. Задача состоит в программном извлечении определенных структурных и параметрических свойств схемы и занесении их в базу данных для последующего использования. На основе проведенного анализа возможностей графических редакторов сделан вывод об актуальности этой задачи для универсальных редакторов, не привязанных к конкретным графическим нотациям и использующих открытые графические форматы документов, что допускает программную обработку. Предлагаемый подход рассматривает графические документы на трёх уровнях абстракции: концептуальном (семантические свойства схемы), логическом (представление семантических свойств на внутреннем уровне документа) и физическом (внутренняя организация графического документа). Решение задачи основано на построении концептуально-логического отображения, то есть отображения концептуальной модели схемы в логическую модель графического документа с учетом его физической модели. В рамках подхода разработан алгоритм построения указанного отображения, представленный в виде объектно-ориентированного псевдокода. Исследование внутренней разметки в открытых графических форматах позволило построить модели идентификации элементов схемы и их соединений между собой, что необходимо для конкретного применения алгоритма. Получены выражения для адресации элементов схемы и доступа к их свойствам. Предложенный подход реализован на основе ситуационно-ориентированной парадигмы, в рамках которой процесс извлечения управляется иерархической ситуационной моделью. Обрабатываемые данные задаются в ситуационной модели в виде виртуальных документов, отображаемых на разнородные внешние источники данных. Для решаемой задачи рассматривается отображение на два варианта форматов векторной графики: на «плоский» файл разметки и на набор таких файлов в электронном архиве. Практическое использование результатов иллюстрируется на примере извлечения семантической информации из графических моделей, разрабатываемых на различных этапах проектирования баз данных.
В статье рассматриваются ситуационно-ориентированные базы данных — информационный процессор в составе веб-приложения, обрабатывающий XML-документы на основе иерархической ситуационной модели (HSM — Hierarchical Situational Model). На данном этапе развития СОБД является репозиторием документов и частью направления NoSQL. Хранилище отображается на гетерогенные документы и обрабатывается в контексте текущей ситуации. Обсуждаются способы задания в HSM виртуальных мультидокументов (ВМД) как совокупности экземпляров документов, отображаемых на реальные данные в различных физических хранилищах. Предлагается структурированный подход, при котором каждый виртуальный документ, входящий в состав ВМД, задается именованным entry-элементом в составе doc-элемента, задающего ВМД в целом и ссылки на такие документы. Внутри entry-элементов, имеющих уникальные имена, указываются запросы на выборку из хранилища XML-документов. Подход иллюстрируется на примерах ВМД, отображаемых на реальные данные в виде таблиц базы данных MySQL, zip-архивов, XML-файлов, веб-сервисов. Благодаря использованию entry-элементов соблюдается принцип инвариантности включая случай, когда изменение отображения не влияет на часть модели с виртуальными документами. Структура виртуальных мультидокументов в СОБД с использованием entry-элементов реализована на платформе PHP сайта СОБД, где доступны образцы программного кода.
1 - 2 из 2 результатов