Алгоритмы кластеризации разнотипных данных на примере решения медицинской задачи
Ключевые слова:
кластеризация, разнотипные данные, мера расстояния, алгоритм кластеризации, ансамблевый подходАннотация
Описан оригинальный алгоритм кластеризации разнотипных данных, основанный на комплексном применении набора мер расстояний и методов кластеризации и многоэтапной кластеризации. В рамках алгоритма реализовано ранжирование признаков объекта по их значимости для группировки и выбор оптимального набора признаков, ансамблевый подход для получения более устойчивого итогового кластерного решения. Алгоритм реализован в программной системе MixDC (Mixed Data Clustering). Приведены методика и результаты решения реальной задачи кластеризации медицинских данных средствами программной системы.
Литература
2. Бериков В.Б. Современные тенденции в кластерном анализе. URL: http://www.ict.edu.ru/ft/005638/62315e1-st02.pdf/ (дата обращения: 14.05.2014).
3. Ким Дж.-О. Факторный, дискриминантный и кластерный анализ / пер. с англ. А.М. Хотинского, С.Б. Королева // М.: Финансы и статистика. 1989. 215 с.
4. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск: Издательство института математики. 1999. 270 с.
5. Ускова К.С., Альсова О.К. Программная система кластерного анализа данных смешанного типа (MixDC-Mixed Data Clustering) // Свидетельство о государственной регистрации программы для ЭВМ № 2014618830. 2014.
6. Альсова О.К., Ускова К.С. Программная система кластерного анализа данных смешанного типа // Автоматика и программная инженерия. 2013. №1(3). С. 75–81.
7. Кобзарь А.И. Прикладная математическая статистика // М.: Физматлит. 2006. 816 с.
8. Чернявский А.М., Альсов С.А., Ляшенко М.М. и др. Анализ неврологических осложнений после хирургической реконструкции дуги аорты у пациентов с проксимальным расслоением // Патология кровообращения и кардиохирургия. 2013. №2. C. 35-39.