The GWAS-MAP platform for aggregation of results of genome-wide association studies and the GWAS-MAP|homo database of 70 billion genetic associations of human traits

Vavilovskii Zhurnal Genet Selektsii. 2020 Dec;24(8):876-884. doi: 10.18699/VJ20.686.

Abstract

Hundreds of genome-wide association studies (GWAS) of human traits are performed each year. The results of GWAS are often published in the form of summary statistics. Information from summary statistics can be used for multiple purposes - from fundamental research in biology and genetics to the search for potential biomarkers and therapeutic targets. While the amount of GWAS summary statistics collected by the scientific community is rapidly increasing, the use of this data is limited by the lack of generally accepted standards. In particular, the researchers who would like to use GWAS summary statistics in their studies have to become aware that the data are scattered across multiple websites, are presented in a variety of formats, and, often, were not quality controlled. Moreover, each available summary statistics analysis tools will ask for data to be presented in their own internal format. To address these issues, we developed GWAS-MAP, a high-throughput platform for aggregating, storing, analyzing, visualizing and providing access to a database of big data that result from region- and genome-wide association studies. The database currently contains information on more than 70 billion associations between genetic variants and human diseases, quantitative traits, and "omics" traits. The GWAS-MAP platform and database can be used for studying the etiology of human diseases, building predictive risk models and finding potential biomarkers and therapeutic interventions. In order to demonstrate a typical application of the platform as an approach for extracting new biological knowledge and establishing mechanistic hypotheses, we analyzed varicose veins, a disease affecting on average every third adult in Russia. The results of analysis confirmed known epidemiologic associations for this disease and led us to propose a hypothesis that increased levels of MICB and CD209 proteins in human plasma may increase susceptibility to varicose veins.

Ежегодно проводятся сотни полногеномных исследований ассоциаций (genome-wide association studies, GWAS) человеческих признаков. Результаты GWAS часто публикуют в форме сводных статистик. Информацию из сводных статистик можно использовать для решения различных задач – от фундаментальных исследований в области биологии и генетики до поиска потенциальных биомаркеров и мишеней терапевтического воздействия. Количество собранных научным сообществом сводных статистик GWAS быстро растет, однако использование данных затруднено из-за отсутствия общепринятых стандартов. В частности, исследователи, которые хотели бы применить сводные статистики GWAS в своей работе, сталкиваются с тем, что данные разбросаны по нескольким веб-сайтам, представлены в различных форматах, нередко без контроля качества. Более того, каждый доступный инструмент анализа сводных статистик запрашивает данные в своем собственном внутреннем формате. Для решения этих проблем мы разработали высокопроизводительную платформу GWAS-MAP для агрегации, хранения, анализа, визуализации и доступа к базе данных результатов полногеномных и региональных исследований ассоциаций. В настоящий момент на платформе содержится информация о более чем 70 миллиардах ассоциаций между вариантами геномной последовательности и болезнями, количественными и «омиксными» признаками человека. Платформа и база данных могут использоваться для изучения этиологии заболеваний человека, разработки предиктивных моделей риска, а также для поиска потенциальных биомаркеров и терапевтических воздействий. Применение платформы как инструмента для извлечения новых биологических знаний и формулировки гипотез о механизмах генетического контроля продемонстрировано на примере варикозной болезни нижних конечностей, заболевания, встречающегося у каждого третьего взрослого жителя России. Результаты проведенного анализа подтвердили известные эпидемиологические ассоциации для данного заболевания и позволили выдвинуть гипотезу о том, что уровень белков MICB и CD209 в плазме крови человека может влиять на риск варикозного расширения вен.

Keywords: GWAS-MAP; database; genome-wide association studies; quantitative genetics; varicose veins.