Полногеномный поиск ассоциаций с использованием матриц парных сравнений
Ключевые слова:
биоинформатика, регрессия, полногеномный поиск ассоциаций, парные сравнения, Лассо, аддитивные и мультипликативные шкалыАннотация
Предлагается простой метод определения значимости объектов популяции при установлении ассоциации между однонуклеотидными полиморфизмами и количественными признаками в полногеномном поиске ассоциаций. На первом этапе сравниваются пары объектов популяции с точки зрения расстояния между ними по фенотипу и генотипу. На втором этапе строятся матрицы парных сравнений объектов и вычисляются веса объектов в соответствии с аддитивной и мультипликативной шкалами. Показывается, как можно модифицировать метод Лассо с использованием весов. Числовые эксперименты с реальными данными иллюстрируют предлагаемый метод.Литература
1. Уткин Л.В., Жук Ю.А., Коолен Ф. Робастная модификация метода Лассо для полногеномного поиска ассоциаций с учетом целевых значений фенотипа // Научно-технический вестник информационных технологий, механики и оптики, 2016, т. 16, №1, с. 150-160.
2. Уткин Л.В., Уткина И.Л. Быстрый алгоритм полногеномного поиска ассоциаций по схеме случай–контроль // Известия Санкт-Петербургской лесотехнической академии, 2015, Вып. 213, с. 263-273.
3. Altidor W., Khoshgoftaar T.M., Van Hulse J., Napolitano A. Ensemble feature ranking methods for data intensive computing applications // Handbook of Data Intensive Computing, 2011, Springer, New York, pages 349-376.
4. Barzilai J., Golany B. Deriving weights from pairwise comparison matrices: The additive case // Operations Research Letters, 1990, V. 9, pp. 407-410.
5. Cistue L., Cuesta-Marcos A., Chao S., Echavarri B., Chutimanitsakun Y., Corey A., Filichkina T., Garcia-Marino N., Romagosa I., Hayes P.M. Comparative mapping of the Oregon Wolfe barley using doubled haploid lines derived from female and male gametes // Theoretical and applied genetics, 2011, V. 122(7) , pp. 1399-1410.
6. Goddard M.E., Wray N.R., Verbyla K., Visscher P.M. Estimating effects and making predictions from genome-wide marker data // Statistical Science, 2009, V. 24(4), pp.517-529.
7. Hayes B. Overview of statistical methods for genome-wide association studies (GWAS) // Methods in Molecular Biology, 2013, V. 1019, pp.149-169.
8. Hayes P., Chen F., Corey A., Pan A., Chen T.H.H., Baird E., Powell W., Thomas W., Waugh R., Bedo Z., Karsai I., Blake T., Oberthur L. The Dicktoo x Morex population // Plant Cold Hardiness, 1997, Springer US, pp. 77-87.
9. Kohavi R., John G.H. Wrappers for feature subset selection // Artificial Intelligence, 1997. 97(1-2), pp.273-324.
10. Guyon I., Weston J., Barnhill S., Vapnik V. Gene selection for cancer classification using support vector machines // Machine Learning, 2002. V.46, pp.389-422.
11. Moore J.H., Asselbergs F.W., Williams S.M. Bioinformatics chal-lenges for genome-wide association studies // Bioinformatics, 2010, V. 26(4), pp. 445-455.
12. Saaty T.L. Multicriteria Decision Making: The Analytic Hierarchy Process. New York: McGraw Hill. 1980.
13. Szymczak S., Biernack J., Cordell H., Gonzalez-Recio O., Koenig I., Zhang H., Sun Y. Machine learning in genome-wide association studies // Genetic Epidemiology, 2009, V. 33, pp. 51-57.
14. Tibshirani R. Regression shrinkage and selection via the Lasso // Journal of the Royal Statistical Society. Series B (Methodological), 1996, V. 58(1), pp. 267-288.
15. Zhang X., Huang S., Zhang Z., Wang W. Chapter 10: Mining Genome-Wide Genetic Markers // PLoS Computational Biology, 2012, V. 8(12), p. e1002828.
16. Zou H., Hastie T. Regularization and variable selection via the elastic net // Journal of the Royal Statistical Society: Series B (Statistical Methodology), 2005, V. 67(2), pp.301-320.
2. Уткин Л.В., Уткина И.Л. Быстрый алгоритм полногеномного поиска ассоциаций по схеме случай–контроль // Известия Санкт-Петербургской лесотехнической академии, 2015, Вып. 213, с. 263-273.
3. Altidor W., Khoshgoftaar T.M., Van Hulse J., Napolitano A. Ensemble feature ranking methods for data intensive computing applications // Handbook of Data Intensive Computing, 2011, Springer, New York, pages 349-376.
4. Barzilai J., Golany B. Deriving weights from pairwise comparison matrices: The additive case // Operations Research Letters, 1990, V. 9, pp. 407-410.
5. Cistue L., Cuesta-Marcos A., Chao S., Echavarri B., Chutimanitsakun Y., Corey A., Filichkina T., Garcia-Marino N., Romagosa I., Hayes P.M. Comparative mapping of the Oregon Wolfe barley using doubled haploid lines derived from female and male gametes // Theoretical and applied genetics, 2011, V. 122(7) , pp. 1399-1410.
6. Goddard M.E., Wray N.R., Verbyla K., Visscher P.M. Estimating effects and making predictions from genome-wide marker data // Statistical Science, 2009, V. 24(4), pp.517-529.
7. Hayes B. Overview of statistical methods for genome-wide association studies (GWAS) // Methods in Molecular Biology, 2013, V. 1019, pp.149-169.
8. Hayes P., Chen F., Corey A., Pan A., Chen T.H.H., Baird E., Powell W., Thomas W., Waugh R., Bedo Z., Karsai I., Blake T., Oberthur L. The Dicktoo x Morex population // Plant Cold Hardiness, 1997, Springer US, pp. 77-87.
9. Kohavi R., John G.H. Wrappers for feature subset selection // Artificial Intelligence, 1997. 97(1-2), pp.273-324.
10. Guyon I., Weston J., Barnhill S., Vapnik V. Gene selection for cancer classification using support vector machines // Machine Learning, 2002. V.46, pp.389-422.
11. Moore J.H., Asselbergs F.W., Williams S.M. Bioinformatics chal-lenges for genome-wide association studies // Bioinformatics, 2010, V. 26(4), pp. 445-455.
12. Saaty T.L. Multicriteria Decision Making: The Analytic Hierarchy Process. New York: McGraw Hill. 1980.
13. Szymczak S., Biernack J., Cordell H., Gonzalez-Recio O., Koenig I., Zhang H., Sun Y. Machine learning in genome-wide association studies // Genetic Epidemiology, 2009, V. 33, pp. 51-57.
14. Tibshirani R. Regression shrinkage and selection via the Lasso // Journal of the Royal Statistical Society. Series B (Methodological), 1996, V. 58(1), pp. 267-288.
15. Zhang X., Huang S., Zhang Z., Wang W. Chapter 10: Mining Genome-Wide Genetic Markers // PLoS Computational Biology, 2012, V. 8(12), p. e1002828.
16. Zou H., Hastie T. Regularization and variable selection via the elastic net // Journal of the Royal Statistical Society: Series B (Statistical Methodology), 2005, V. 67(2), pp.301-320.
Опубликован
2016-08-01
Как цитировать
Уткин, Л. В., & Жук, Ю. А. (2016). Полногеномный поиск ассоциаций с использованием матриц парных сравнений. Труды СПИИРАН, 4(47), 225-240. https://doi.org/10.15622/sp.47.12
Раздел
Алгоритмы и программные средства
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).