Методы и модели извлечения знаний из медицинских документов
Ключевые слова:
клинические тексты, извлечение информации, машинное обучение, интеллектуальный анализ медицинских данных, автоматическое построение онтологий, графы знанийАннотация
В работе выполнен анализ современного состояния проблемы извлечения знаний из клинических рекомендаций, представленных в виде слабоструктурированных корпусов текстовых документов на естественном языке с учетом их периодического обновления. Рассматриваемые методы интеллектуального анализа накопленных массивов медицинских данных позволяют автоматизировать ряд задач, направленных на повышение качества медицинской помощи за счет значимой поддержки принятия решений в процессе диагностики и лечения. Выполнен обзор известных публикаций, освещающий подходы к автоматизации построения нейросетевых языковых моделей, онтологий и графов знаний в задачах семантического моделирования проблемно-ориентированного корпуса текстов. Представлена структурно-функциональная организация системы извлечения знаний и автоматического построения онтологии и графа знаний проблемно-ориентированного корпуса для конкретной предметной области. Рассмотрены основные этапы извлечения знаний и динамического обновления графа знаний: извлечение именованных сущностей, семантическое аннотирование, извлечение терминов, ключевых слов, тематическое моделирование, идентификация тем и извлечение отношений. Формализованное представление текстов получено с помощью предобученной модели-трансформера BERT. Использовано автоматическое выделение триплетов «объект»-«действие»-«субъект» на основе частеречной разметки корпуса текстов для построения фрагментов графа знаний. Проведен эксперимент на корпусе медицинских текстов заданной тематики (162 документа обезличенных историй болезни пациентов педиатрического центра) без предварительной разметки с целью проверки предложенного решения по извлечению триплетов и конструирования на их основе графа знаний. Анализ экспериментальных результатов подтверждает необходимость более глубокой разметки корпуса текстовых документов для учета специфики медицинских текстовых документов. Показано, что модели общего назначения не позволяют приблизиться по качеству выделения именованных сущностей к специализированным моделям, однако, позволяют предварительно разметить корпус для дальнейшей верификации и уточнения разметки (оценка F1-меры для модели общего назначения – 20,4% по сравнению с вариантом использования словаря – 16,7%). Для неразмеченного корпуса текстов предложенное решение демонстрирует удовлетворительную работоспособность ввиду выделения атомарных фрагментов, включаемых в автоматически формируемую онтологию.
Литература
2. Musen M.A., Middleton B., Greenes R.A. Clinical decision-support systems. In: Biomedical informatics. Springer. 2014. pp. 643–674. doi: 10.1007/978-1-4471-4474-8_22.
3. Rencis E. Natural language-based knowledge extraction in healthcare domain // Proceedings of the 2019 3rd International Conference on Information System and Data Mining. 2019. pp. 138-142.
4. Бледжянц Г.А., Саркисян М.А., Исакова Ю.А., Туманов Н.А., Попов А.Н., Бегмуродова Н.Ш. Ключевые технологии формирования искусственного интеллекта в медицине // Ремедиум. 2015. № 12. C. 10-15.
5. Рубрикатор клинических рекомендаций. URL: https://cr.minzdrav.gov.ru/clin_recomend (дата обращения: 01.10.2022).
6. Dligach D., Bethard S., Becker L., Miller T.A., Savova G.K. Discovering body site and severity modifiers in clinical texts. Journal of the American Medical Informatics Association (JAMIA). 2014. pp. 448–454. doi: 10.1136/amajnl-2013-001766.
7. Chikka V.R., Mariyasagayam N., Niwa Y., Karlapalem K. Information Extraction from Clinical Documents: Towards Disease/Disorder Template Filling. In: Experimental IR Meets Multilinguality, Multimodality, and Interaction. Springer. 2015. pp. 389–401. doi: 10.1007/978-3-319-24027-5_41.
8. Shelmanov A.O, Smirnov I.V, Vishneva E.A. Information extraction from clinical texts in Russian // Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference Dialogue (2015). Issue 14 (21). 2015. pp. 560–572.
9. Кушнерова И.А., Акимов С.С. Перспективы применения искусственного интеллекта в медицине // Компьютерная интеграция производства и ИПИ-технологии: Сб. научн. тр. VIII Всероссийской научн. -практ. конф. (Оренбург, 16–17 ноября 2017 г.). Оренбург: ОГУ. 2017. С. 249–250.
10. Берестнева Е.В., Шаропин К.А., Жаркова О.С. Создание медицинских баз знаний с использованием деревьев решений // Успехи современной науки. 2016. Т. 2. № 10. С. 69–72.
11. Катасёв А.С., Ахатова Ч.Ф. Гибридная нейронечеткая модель интеллектуального анализа данных для формирования баз знаний мягких экспертных диагностических систем // Наука и образование: научное издание МГТУ им Н.Э. Баумана. 2012. № 12. С. 34–43.
12. Климов А.А., Куприяновский В.П., Гринько О.В., Покусаев О.Н. К вопросу обратного инжиниринга - путь от бумаги до цифровых онтологических правил для образовательных технологий // International Journal of Open Information Technologies. 2019. Т. 7. № 9. С. 82-91.
13. Муромцев Д., Волчек Д., Романов А. Индустриальные графы знаний - интеллектуальное ядро цифровой экономики // Control Engineering Россия. 2019. № 5(83). С. 32-39.
14. Asim M.N., Wasim M., Ghani Khan M.U., Mahmood W., Abbasi H.M. A survey of ontology learning techniques and applications // Database. 2018. vol. 2018. Bay101. https://doi.org/10.1093/database/bay101 (дата обращения: 26.06.2022).
15. Al-Aswadi F.N., Chan H.Y., Gan K.H. Automatic ontology construction from text: a review from shallow to deep learning trend // Artificial Intelligence Review. 2020. Т. 53. №. 6. pp. 3901-3928.
16. Ding Y., Foo S. Ontology research and development. Part 1-a review of ontology generation // Journal of information science. 2002. Т. 28. №. 2. pp. 123-136.
17. Волчек Д.Г., Романов А.А. Создание и обучение онтологий на основе анализа контекста и метаданных слабоструктурированного контента // Экономика: вчера, сегодня, завтра. 2020. Т. 10. № 1А. С. 303–312. doi: 10.34670/AR.2020.91.1.033.
18. Huang H. et al. Core-Concept-Seeded LDA for Ontology Learning // Procedia Computer Science. 2021. Т. 192. pp. 222-231.
19. Минин А.С., Чуприна С.И. Методы и средства построения онтологически управляемых систем приобретения знаний // Вестник пермского университета. Математика. Механика. Информатика. 2021. №. 4 (55). С. 25-34.
20. Максимов А.И., Молодов В.А., Рунов С.С. Об одном способе представления знаний в медицинских интеллектуальных системах // Современные инновации. 2021. № 1 (39). С. 48–50.
21. Кулешов С.В., Зайцева А.А., Марков В.С. Ассоциативно-онтологический подход к обработке текстов на естественном языке // Интеллектуальные технологии на транспорте. 2015. № 4 (4). С. 40–45.
22. Михайлов С.Н, Малашенко О.И., Зайцева А.А. Методика инфологического анализа семантического содержания обращений пациентов для организации электронной записи // Труды СПИИРАН. 2015. № 5 (42). C. 140–154.
23. Harnoune A. et al. BERT based clinical knowledge extraction for biomedical knowledge graph construction and analysis // Computer Methods and Programs in Biomedicine Update. 2021. vol. 1. no. 100042.
24. Понкин Д.И. Концепт предобученных языковых моделей в контексте инженерии знаний // International Journal of Open Information Technologies. 2020. № 9. С. 18–29. URL: http://injoit.org/index.php/j1 (дата обращения: 24.09.2022).
25. Землянский С.А., Аксёнов С.В., Лызин И.А., Берестнева О.Г. Тематическое моделирование в контексте медицинских текстов // Доклады ТУСУР. 2021. Т. 24. № 4. С. 58–64.
26. Нугуманова А.Б., Байбурин Е.М., Мансурова М.Е., Барахнин В.Б. Автоматическое извлечение решеток понятий из медицинских текстов на основе комбинации анализа формальных понятий и технологий бутстраппинга // Вестник НГУ. Серия: Информационные технологии. 2018. Т. 16. № 4. С. 140-152.
27. Petroni F., Rocktaschel T., Lewis P. Language Models as Knowledge Bases? // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP’2019). ong Kong (China): Association for Computational Linguistics. 2019. pp. 2463–2473.
28. Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // arXiv preprint arXiv:1810.04805. URL: https://arxiv.org/abs/1810.04805 (дата обращения: 24.09.2022).
29. Lee J., Yoon W., Kim D., Kim S., So C.H., Kang J. BioBERT: a pre-trained biomedical language representation model for biomedical text mining Bioinformatics // arXiv preprint arXiv: 1901.08746. URL: https://arxiv.org/abs/1901.08746 (дата обращения: 24.09.2022).
30. Alsentzer E., Murphy J.R., Boag W., Weng W.-H., Jin D., Naumann T., McDermott M. Publicly available clinical bert embeddings // arXiv preprint arXiv:1904.03323. URL: https://arxiv.org/pdf/1904.03323.pdf (дата обращения: 24.09.2022).
31. Sboev A. et al. An analysis of full-size Russian complexly NER labelled corpus of Internet user reviews on the drugs based on deep learning and language neural nets //arXiv preprint arXiv:2105.00059. URL: https://arxiv.org/pdf/2105.00059.pdf (дата обращения: 24.09.2022).
32. Russian Drug Review corpus by Sag team (RDRS). URL: https://sagteam.ru/med-corpus/stata/#ours-Pharm2021arxiv (дата обращения: 24.09.2022).
33. Tutubalina E. et al. The Russian Drug Reaction Corpus and neural models for drug reactions and effectiveness detection in user reviews // Bioinformatics. 2021. Т. 37. № 2. С. 243–249.
34. Aronson A.R, Lang F.M. An overview of MetaMap: historical perspective and recent advances // Journal of the American Medical Informatics Association. 2010. №17 (3). pp. 229–236. doi:10.1136/jamia.2009.002733.
35. Schuyler P.L, Hole W.T, Tuttle M.S, Sherertz D.D. The UMLS Metathesaurus: representing different views of biomedical concepts // Bulletin of the Medical Library Association. 1993. № 81 (2). pp. 217–222.
36. Unified Medical Language System (UMLS). URL: http://www.nlm.nih.gov/research/umls/sourcereleasedocs/current/MSHRUS/ (дата обращения: 04.10.2022).
37. Государственный реестр лекарственных средств. URL: http://grls.rosminzdrav.ru/Default.aspx (дата обращения: 24.09.2022).
38. Гусев П.Ю. Обработка текстов и подготовка моделей векторизации для программного комплекса классификации научных текстов // Моделирование, оптимизация и информационные технологии. 2021. Т. 9. № 1. С. 6–7.
39. Kelly L., Goeuriot L., Suominen H., Schreck T., Leroy G., Mowery D.L. et al. Overview of the SHARE/CLEF eHealth evaluation lab 2014 // Springer. 2014. pp. 172–191. doi:10.1007/978-3-319-11382-1_17.
40. McCusker J.P., Erickson J.S., Chastain K., Rashid S., Weerawarana R., Bax M., McGuinness D.L. What is a knowledge graph? URL: https://www.semantic-web-journal.net/ (дата обращения: 25.09.2022).
41. Апанович З.В. Эволюция понятия и жизненного цикла графов знаний // Системная информатика. 2020. №.16. С. 57–74.
42. Färber M., Bartscherer F., Menne C., Rettinger A. Linked data quality of dbpedia, freebase, opencyc, wikidata, and yago // Semantic Web. 2016. pp. 1–53.
43. Huang Z., Yang J., Harmelen F.V., Hu Q. Constructing disease-centric knowledge graphs: a case study for depression (short version) // Proceedings of the Conference on Artificial Intelligence in Medicine in Europe. Springer. 2017. pp. 48–52.
44. World Wide Web Consortium (W3C). URL: https://www.w3.org/ (дата обращения: 25.09.2022).
45. Ehrlinger L., Woß W. Towards a definition of knowledge graphs // SEMANTiCS (Posters, Demos, SuCCESS). 2016. no. 48.
46. Ernst P., Siu A., Weikum G. KnowLife: a versatile approach for constructing a large knowledge graph for biomedical sciences // BMC bioinformatics. 2015. № 16 (157). https://doi.org/10.1186/s12859-015-0549-5.
47. Stepanova D., Gad-Elrab M.H., Ho T.V. Rule Induction and Reasoning over Knowledge Graphs // Reasoning Web International Summer School // Springer, Cham. 2018. pp. 142-172.
48. Nickel M., Murphy K., Tresp V., Gabrilovich E. A review of relational machine learning for knowledge graphs // Proceedings of the IEEE, 104(1). 2016. vol. 104 (1). pp. 11–33.
49. Yao L., Mao C., Luo Y. KG-BERT: BERT for Knowledge Graph Completion // arXiv preprint arXiv: 1810.04805. URL: https://arxiv.org/abs/1810.04805 (дата обращения: 24.09.2022).
50. Ji S., Pan S., Cambria E. et al. A Survey on Knowledge Graphs: Representation, Acquisition and Applications // arXiv preprint arXiv: 2002.00388. URL: https://arxiv.org/abs/2002.00388 (дата обращения: 24.09.2022).
51. Yoo S.-Y., Jeong O.-K. Automating the expansion of a knowledge graph // Expert Systems with Applications. 2020. vol. 141. no. 112965.
52. Глобальный и единый доступ к графам знаний. URL: https://www.dbpedia.org/ (дата обращения: 07.07.2022).
53. Википедия. Свободная энциклопедия. URL: www.en.wikipedia.org/wiki/Main_Page (дата обращения: 08.07.2022).
54. Adams T. Google and the future of search: Amit Singhal and the knowledge graph // The Guardian. 2013. Т. 19.
55. Ehrlinger L., Wöß W. Towards a definition of knowledge graphs // SEMANTiCS (Posters, Demos, SuCCESS). 2016. Т. 48. №. 1-4. p. 2.
56. Silva M.C., Faria D., Pesquita C. Matching Multiple Ontologies to Build a Knowledge Graph for Personalized Medicine // European Semantic Web Conference. – Springer, Cham. 2022. pp. 461-477.
57. Kumar K., Manocha S. Constructing knowledge graph from unstructured text // Self. 2015. Т. 3. 4 p.
58. Grainger T. et al. The Semantic Knowledge Graph: A compact, auto-generated model for real-time traversal and ranking of any relationship within a domain // 2016 IEEE international conference on data science and advanced analytics (DSAA). IEEE. 2016. pp. 420-429.
59. Lakshika M., Caldera H.A. Knowledge Graphs Representation for Event-Related E-News Articles // Machine Learning and Knowledge Extraction. 2021. Т. 3. №. 4. pp. 802-818.
60. Bernasconi E., Ceriani M., Mecella M. Exploring a Text Corpus via a Knowledge Graph // IRCDL. 2021. pp. 91-102.
61. Богатырев М.Ю., Тюхтин В.В. Построение концептуальных графов как элементов семантической разметки текстов // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной Международной конференции «Диалог – 2009».
62. Logan R., Liu N.F., Peters M.E. et al. Barack’s Wife Hillary: Using Knowledge Graphs for Fact-Aware Language Modeling // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Italy: Association for Computational Linguistics. 2019. pp. 5962–5971.
63. Guu K., Lee K., Tung Z. et al. REALM: Retrieval Augmented Language Model Pre-Training // arXiv preprint arXiv: 2002.08909. URL: https://arxiv.org/abs/2002.00388 (дата обращения: 24.09.2022).
64. Wang R., Tang D., Duan N. etc. K-Adapter: Infusing Knowledge into Pre-Trained Models with Adapters // arXiv preprint arXiv:2002.01808. https://arxiv.org/abs/2002.01808 (дата обращения: 24.09.2022).
65. Yang B., Mitchell T. Leveraging Knowledge Bases in LSTMs for Improving Machine Reading // arXiv preprint arXiv:1902.09091. https://arxiv.org/abs/1902.09091 (дата обращения: 24.09.2022).
66. He B., Zhou D., Xiao J. et al. Integrating Graph Contextualized Knowledge into Pre-trained Language Models // arXiv preprint arXiv:1912.00147. https://arxiv.org/abs/1912.00147 (дата обращения: 24.09.2022).
67. Wang X., Gao T., Zhu Z. KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation // arXiv preprint arXiv:1911.06136. https://arxiv.org/abs/1911.06136 (дата обращения: 24.09.2022).
68. Weng J., Gao Y., Qiu J. et al. Construction and Application of Teaching System Based on Crowdsourcing Knowledge Graph // Knowledge Graph and Semantic Computing: Knowledge Computing and Language Understanding: 4th China Conference (CCKS 2019). China. Singapore: Springer. 2019. pp. 25 – 37.
69. Harnoune A. et al. BERT based clinical knowledge extraction for biomedical knowledge graph construction and analysis // Computer Methods and Programs in Biomedicine Update. 2021. vol. 1. no. 100042.
70. Martinez-Rodriguez J.L., Hogan A., Lopez-Arevalo I. Information extraction meets the semantic web: a survey // Semantic Web. 2020. Т. 11. №. 2. pp. 255-335.
71. Баранов А.А. и др. Методы и средства комплексного интеллектуального анализа медицинских данных // Труды Института системного анализа Российской академии наук. 2015. Т. 65. №. 2. С. 81-93.
72. Васильев В.И. и др. Методика оценки актуальных угроз и уязвимостей на основе технологий когнитивного моделирования и Text Mining // Системы управления, связи и безопасности. 2021. №. 3. С. 110-134.
73. Васильев В.И., Вульфин А.М., Кучкарова Н.В. Автоматизация анализа уязвимостей программного обеспечения на основе технологии Text Mining // Вопросы кибербезопасности. 2020. №. 4 (38). С. 22-31.
74. Веб-сервис для хостинга IT-проектов и их совместной разработки. URL: https://github.com/Koziev/rupostagger (дата обращения: 26.09.2022).
75. Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С. Автоматическая обработка текстов на естественном языке и анализ данных // М.: Изд-во НИУ ВШЭ. 2017. с. 269.
76. De Marneffe M.C. et al. Universal Stanford dependencies: A cross-linguistic typology // Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14). 2014. pp. 4585-4592.
77. Простой граф знаний на текстовых данных. Хабр: Коллективный блог. URL: https://habr.com/ru/post/559110/. (дата обращения 08.07.2022).
Опубликован
Как цитировать
Раздел
Copyright (c) Рустэм Халитович Зулкарнеев, Нафиса Исламовна Юсупова, Ольга Николаевна Сметанина, Майя Марсовна Гаянова, Алексей Михайлович Вульфин
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).