Алгоритмы первичного анализа локальных объектов флуоресценции в секвенаторе ДНК «Нанофор СПС»
Ключевые слова:
секвенирование, нуклеиновая кислота, методы обработки сигналов флуоресценции ДНК и РНК, анализ изображений, машинное обучениеАннотация
В секвенаторе ДНК «Нанофор СПС», разработанном в Институте аналитического приборостроения РАН, реализован метод массового параллельного секвенирования для расшифровки последовательности нуклеиновых кислот. Этот метод позволяет определять последовательность нуклеотидов в ДНК или РНК, содержащих от нескольких сотен до сотен миллионов звеньев мономеров. Таким образом, имеется возможность получения подробной информации о геноме различных биологических объектов, в том числе человека, животных и растений. Важнейшей частью этого прибора является программное обеспечение, без которого невозможно решение задач по расшифровке генома. Выходными данными оптической детекции в секвенаторе являются набор изображений по четырем каналам, соответствующим типам нуклеотидов: A, C, G, T. С помощью специального программного обеспечения определяется положение молекулярных кластеров и их интенсивностные характеристики вместе с параметрами окружающего фона. В ходе создания программного обеспечения прибора были разработаны алгоритмы и программы обработки сигналов флуоресценции, рассмотренные в работе. Также, для отладки и тестирования рабочих программ созданы модели построения изображений, аналогичных реальным данным, получаемым в ходе работы секвенатора. Данные модели позволили получить значительный массив информации без запуска дорогостоящих экспериментов. За последние годы достигнуты значительные успехи в области машинного обучения, в том числе и в области биоинформатики, что привело к реализации наиболее распространенных моделей и возможности их применения для практических задач. Однако, если на этапе вторичного анализа биоинформационных данных эти методы широко зарекомендовали себя, то их потенциал для первичного анализа остается недостаточно раскрытым. В данной работе особое внимание уделяется разработке и внедрению методов машинного обучения для первичного анализа оптических изображений сигналов флуоресценции в реакционных ячейках. Описаны методы кластеризации и их апробация на моделях и на изображениях, полученных на приборе. Цель этой статьи – продемонстрировать возможности алгоритмов первичного анализа сигналов флуоресценции, получающихся в процессе секвенирования на приборе «Нанофор СПС». В работе описаны основные задачи анализа сигналов флуоресценции и сравниваются традиционные методы их решения с использованием технологий машинного обучения.
Литература
2. Ansorge W.J. Next-generation DNA sequencing techniques // Nature Biotechnology. 2009. vol. 25. no. 4. pp. 195–203.
3. Bentley R.D. Balasubramanian S., Swerdlow H.P., Smith G.P., Milton J., Brown C.G., et al. Accurate whole human genome sequencing using reversible terminator chemistry // Nature. 2008. vol. 456. no. 7216. pp. 53–59.
4. Whiteford N. The Solexa pipeline. 2012. URL: http//41j.com/blog/wp-content/uploads/2012/04/pipeline.pdf (дата обращения: 20.02.2024).
5. Leshkowitz D. Introduction to Deep-Sequencing Data Analysis Illumina Primary Analysis Pipeline & Quality Control. 2017. URL: http://dors.weizmann.ac.il/course/course2017/Dena_IlluminaPrimaryAnalysisPipeline-course2017.pdf (дата обращения: 20.02.2024).
6. Манойлов В.В., Бородинов А.Г., Сараев А.С., Петров А.И., Заруцкий И.В., Курочкин В.Е. Алгоритмы обработки изображений в секвенаторе ДНК НАНОФОР СПС // Журнал технической физики. 2022. Т. 92. № 7. С. 985–992. DOI: 10.21883/JTF.2022.07.52655.318-21.
7. Манойлов В.В., Бородинов А.Г., Заруцкий И.В., Петров А.И., Курочкин В.Е. Алгоритмы обработки сигналов флуоресценции массового параллельного секвенирования нуклеиновых кислот // Труды СПИИРАН. 2019. Т. 18. № 4. С. 1010–1036. DOI: 10.15622/sp.2019.18.4.1010-1036.
8. Бородинов А.Г., Манойлов В.В., Заруцкий И.В., Петров А.И., Курочкин В.Е., Сараев А.С. Машинное обучение в задачах base-calling для методов секвенирования нового поколения // Информатика и автоматизация. 2022. Т. 21. № 3. С. 572–603. DOI: 10.15622/ia.21.3.5.
9. Журавель И.М. Краткий курс теории обработки изображений. URL: http://matlab.exponenta.ru/imageprocess/book2/49.php (дата обращения: 26.10.2023).
10. Вудс Р., Гонсалес Р. Цифровая обработка изображений / 3-е изд. // М.: Техносфера. 2012. 1104 с.
11. Sizikov V.S. Spectral method for estimating the point-spread function in the task of eliminating image distortions // Journal of Optical Technology. 2017. vol. 84. no. 2. pp. 95–101.
12. Sizikov V.S., Stepanov A.V., Mezhenin A.V., Burlov D.I., Eksemplyarov R.A. Determining image-distortion parameters by spectral means when processing pictures of the earth’s surface obtained from satellites and aircraft // Journal of Optical Technology. 2018. vol. 85. no. 4. pp. 203–110.
13. Бардин Б.В., Чубинский-Надеждин И.В. Обнаружение локальных объектов на цифровых микроскопических изображениях // Научное приборостроение. 2009. Т. 19. № 4. C. 96–102.
14. Otsu N. A Threshold Selection Method from Gray-Level Histograms // IEEE Transactions on Systems. IEEE Transactions on Systems, Man and Cybernetics. 1979. vol. 9. pp. 62–66. DOI: 10.1109/TSMC.1979.4310076.
15. Сараев А.С., Петров А.И., Манойлов В.В. Моделирование генерации кластеров молекул ДНК в приборах массового параллельного секвенирования // Тезисы докладов Четвертой международной конференции со школой молодых ученых «Физика – наукам о жизни» / СПб: ФТИ им. А.Ф. Иоффе. 2021. С. 153.
16. Сараев А.С. Научно-квалификационная работа «Разработка алгоритма распознавания кластеров нуклеиновых кислот в микрофлюидной ячейке секвенатора «Нанофор СПС». СПб: ИАП РАН. 2023. C. 16–22.
17. Schmidt B., Hildebrandt A. Deep learning in next-generation sequencing // Drug discovery today. 2021. vol. 26. no. 1. pp. 173–180.
18. Ozgur S., Orman M. Application of deep learning technique in next generation sequence experiments // Journal of Big Data. 2023. vol. 10. no. 1. DOI: 10.1186/s40537-023-00838-w.
19. Tegfalk E. Application of machine learning techniques to perform base-calling in next-generation DNA sequencing. 2020. 45 p.
20. Cacho A., Smirnova E., Huzurbazar S., Cui X. A comparison of base-calling algorithms for illumina sequencing technology // Briefings in bioinformatics. 2016. vol. 17. no. 5. pp. 786–795.
21. Kircher M., Stenzel U., Kelso J. Improved base calling for the Illumina Genome Analyzer using machine learning strategies // Genome biology. 2009. vol. 10(8). DOI: 10.1186/gb-2009-10-8-r83.
22. Ghojogh B., Crowley M. The theory behind overfitting, cross validation, regularization, bagging, and boosting: tutorial // arXiv preprint arXiv:1905.12787. 2019.
23. Бородинов А.Г., Ямановская А.Ю., Манойлов В.В., Петров А.И. Оптимальный выбор признаков для уменьшения размерности моделей машинного обучения в задаче base-calling // Тезисы докладов Второй ежегодной всероссийской молодежной конференции по методам и приборам для анализа биологических объектов «АналитБиоПрибор-2023» (Санкт-Петербург, 23–24 ноября 2023 г.). Санкт-Петербург: Издательско-полиграфическая ассоциация высших учебных заведений, 2023. С. 135–138.
24. Whiteford N., Skelly T., Curtis C., Ritchie M.E., Lohr, A., Zaranek A.W., Abnizova I., Brown C. Swift: primary data analysis for the Illumina Solexa sequencing platform // Bioinformatics. 2009. vol. 25. no. 17. pp. 2194–2199.
25. Hafiz A.M., Bhat G.M. A survey on instance segmentation: state of the art // International journal of multimedia information retrieval. 2020. vol. 9. no. 3. pp. 171–189.
26. Chaudhry M., Shafi I., Mahnoor M., Vargas D.L.R., Thompson E.B., Ashraf I.A. Systematic literature review on identifying patterns using unsupervised clustering algorithms: a Data mining perspective // Symmetry. 2023. vol. 15. no. 1679. DOI: 10.3390/sym15091679.
27. Khandare A., Pawar R. Data clustering algorithms: experimentation and comparison // Intelligent Computing and Networking: Proceedings of IC-ICN 2021. 2022. pp. 86–99.
28. Sarang P. BIRCH: Divide and Conquer // Thinking Data Science: A Data Science Practitioner’s Guide. Cham: Springer International Publishing. 2023. pp. 229–236.
29. Ester M., Kriegel H.P., Sander J., Xu X. A density-based algorithm for discovering clusters in large spatial databases with noise // kdd. 1996. vol. 96. no. 34. pp. 226–231.
30. Zhao Y., Cao J., Zhang C., Zhang S. Enhancing grid-density based clustering for high dimensional data // Journal of Systems and Software. 2011. vol. 84. no. 9. pp. 1524–1539.
31. Wolowski V.R. High-quality, high-throughput measurement of protein-DNA binding using HiTS-FLIP. Dissertation, LMU Munchen: Fakultat fur Chemie und Pharmazie 2016. DOI: 10.5282/edoc.19445.
32. Chityala R., Pudipeddi S. Image processing and acquisition using Python // Chapman and Hall/CRC. 2020. 452 p.
33. Kameshwaran K., Malarvizhi K. Survey on clustering techniques in data mining // International Journal of Computer Science and Information Technologies. 2014. vol. 5. no. 2. pp. 2272–2276.
Опубликован
Как цитировать
Раздел
Copyright (c) Алексей Сараев
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).