Алгоритмы обработки сигналов флуоресценции массового параллельного секвенирования нуклеиновых кислот
Ключевые слова:
секвенирование нуклеиновых частот, алгоритмы обработки сигналов флуоресценции отдельных нуклеотидов нуклеиновых кислот, анализ параметров изображений, оценка достоверности результата генетического анализаАннотация
Определение нуклеотидной последовательности ДНК или РНК, содержащих от нескольких сотен до сотен миллионов звеньев мономеров позволяет получить подробную информацию о геноме человека, животных и растений. Расшифровывать структуру нуклеиновых кислот научились достаточно давно, однако первоначально методы расшифровки были низко производительными, неэффективными и дорогими. Методы расшифровки нуклеотидной последовательности нуклеиновых кислот принято называть методами секвенирования. Приборы, предназначенные для реализации методов секвенирования, называются секвенаторами. Секвенирование нового поколения, массовое параллельное секвенирование — это родственные термины, описывающие технологию высокопроизводительного секвенирования ДНК, при котором весь человеческий геном можно секвенировать в течение одного-двух дней. Предыдущая технология, используемая для расшифровки генома человека, потребовала более десяти лет, чтобы получить окончательные результаты.
В Институте аналитического приборостроения РАН разрабатывается аппаратно-программный комплекс для расшифровки последовательности нуклеиновых кислот патогенных микроорганизмов методом массового параллельного секвенирования.
Программное обеспечение, входящее в состав аппаратно-программного комплекса играет существенную роль в решении задач расшифровки генома.
Цель статьи — показать необходимость создания алгоритмов программного обеспечения аппаратно-программного комплекса для обработки сигналов, получающихся в процессе генетического анализа при решении задач расшифровки генома, а также продемонстрировать возможности этих алгоритмов. В работе рассмотрены основные проблемы обработки сигналов и методы их решения. В их числе: автоматическая и полуавтоматическая фокусировка, коррекция изображения фона реакционной ячейки, обнаружение изображений кластеров, оценка координат их положений, создание шаблонов кластеров молекул нуклеиновых кислот на поверхности реакционной ячейки, коррекция влияния интенсивностей соседних оптических каналов и оценка достоверности результатов генетического анализа.
Литература
2. Bentley R.D. et al Accurate whole human genome sequencing using reversible terminator chemistry // Nature. 2008. vol. 456. no. 7218. pp. 53–59
3. Shendure J. et al. DNA sequencing at 40: past, present and future // Nature. 2017. vol. 550. no. 7676. pp. 345.
4. Nava W. The Solexa pipline. URL: http//41j.com/blog/wp-content/uploads/2012/04/pipeline.pdf ( дата обращения: 13.07.2019).
5. Dena L. Introduction to Deep-Sequencing Data Analysis Illumina Primary Analysis Pipeline & Quality Control URL: http://dors.weizmann.ac.il/course/course2017/Dena_IlluminaPrimaryAnalysisPipeline-course2017.pdf (дата обращения: 13.07.2019).
6. Журавель И.М. Краткий курс теории обработки изображений. URL: http://matlab.exponenta.ru/imageprocess/book2/49.php (дата обраще-ния: 06.06.2019).
7. Гонсалес Р., Вудс Р. Цифровая обработка изображений // М.: Техносфера. 2012. 1104 с.
8. Сизиков В.С. Прямые и обратные задачи в восстановления изображений, спектроскопии и томографии с Матлаб // СПб.: Лань. 2017. 412 с.
9. Sizikov V.S. Spectral method for estimating the point-spread function in the task of eliminating image distortions // Journal of Optical Technology. 2017. vol. 84. no. 2. pp. 95–101.
10. Sizikov V.S. et al. Determining image-distortion parameters by spectral means when processing pictures of the earth’s surface obtained from satellites and aircraft // Journal of Optical Technology. 2018. vol. 85. no. 4. pp. 203–210.
11. Сизиков В.С., Экземпляров Р.А. Предшествующая и последующая фильтра-ция шумов в алгоритмах восстановления // Научно-технический вестник информационных технологий механики и оптики. 2014. № 1(89). С. 112–122.
12. Сизиков В.С., Лавров А.В. Устойчивые методы математико-компьютерной обработки изображений и спектров // СПб.: Университет ИТМО. 2018. 70 c
13. Fu G, Shen D., Sabuncu M.R. Machine Learning and Medical Imaging Book // Academic Press. 2016. 512 p.
14. Живрин Я.Э., Алкзир Н. Б. Методы определения объектов на изображении // Молодой учёный. 2018. № 7. C. 8–19.
15. Кулакович А.Ю., Венцов Н.Н. Краткий обзор и программная реализация избранных методов для деконволюции // Инженерный вестник Дона. 2017. № 4(47). 11 p.
16. Бардин Б.В., Чубинский-Надеждин И.В. Обнаружение локальных объектов на цифровых микроскопических изображениях// Научное приборострое-ние. 2009. Т. 19. № 4. C. 96–102.
17. Szeliski R. Concise Computer Vision. An Introduction into Theory and Algo-rithms // Springer-Verlag. 2014 p. 441.
18. Najman L., Schmitt M. Watershed of a Continuous Function // Signal Pro-cessing. 1994. vol. 38. no. 1. pp. 99–112.
19. Roerdink J.B., Meijster A. Watershed Transform: Definitions, Algorithms and Parallelization Strategies // Fundamenta Informaticae. 2001. vol. 41. no. 1,2. pp. 187–228
20. Старовойтов В.В., Голуб Ю.И. Цифровые изображения от получения до обработки // ОИПИ НАН Беларуси. 2014. 202 с.
21. Kriseman J., Busick C., Szelinger S., Dinu V. Bing: Biomedical informatics pipe-line for Next Generation Sequencing // Journal of Biomedical Informatics. 2010. vol. 43. no. 3. pp. 428–434.
22. On-Instrument Primary Analysis for HiSeq Theory // Operation manual ILLUMINA PROPRIETARY Pub. no. 770-2009-020. 2011.
23. Cacho A, Smirnova E, Huzurbazar S, Cui X. A Comparison of Base-calling Algorithms for Illumina Sequencing Technology // Briefings in Bioinformatics. 2015. vol. 17. no. 5. pp. 786–795.
24. Ledergerber C, Dessimoz C Base-calling for next-generation sequencing plat-forms // Briefings in bioinformatics. 2011. vol. 12(5). pp. 489–497.
25. Mitra A., Skrzypczak M., Ginalski K., Rowicka M. Strategies for Achieving High Sequencing Accuracy for Low Diversity Samples and Avoiding Sample Bleed-ing Using Illumina Platform // PlOS one. 2015. vol. 10. no. 4. pp. e0120520.
26. Zhang et al. Estimating Phred scores of Illumina base calls by logistic regres-sion and sparse modeling // BMC Bioinformatics. 2017. vol. 18. no. 1. pp. 335.
Опубликован
Как цитировать
Раздел
Copyright (c) 2019 Vladimir Vladimirovich Manoilov
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).