A benchmark dataset of protein antigens for antigenicity measurement

Tianyi Qiu; Jingxuan Qiu; Yiyan Yang; Lu Zhang; Tiantian Mao; Xiaoyan Zhang; Jianqing Xu; Zhiwei Cao

doi:10.1038/s41597-020-0555-y

A benchmark dataset of protein antigens for antigenicity measurement

Sci Data. 2020 Jul 6;7(1):212. doi: 10.1038/s41597-020-0555-y.

Authors

Tianyi Qiu^#^{1

2}, Jingxuan Qiu^#³, Yiyan Yang², Lu Zhang², Tiantian Mao², Xiaoyan Zhang¹, Jianqing Xu⁴, Zhiwei Cao⁵

Affiliations

¹ Shanghai Public Health Clinical Center, Fudan University, Shanghai, 200032, China.
² Shanghai 10th People's Hospital, School of Life Sciences and Technology, Tongji University, Shanghai, 200092, China.
³ School of Medical Instrument and Food Engineering, University of Shanghai for Science and Technology, Shanghai, 200093, China.
⁴ Shanghai Public Health Clinical Center, Fudan University, Shanghai, 200032, China. xujianqing@shphc.org.cn.
⁵ Shanghai 10th People's Hospital, School of Life Sciences and Technology, Tongji University, Shanghai, 200092, China. zwcao@tongji.edu.cn.

^# Contributed equally.

Abstract

Antigenicity measurement plays a fundamental role in vaccine design, which requires antigen selection from a large number of mutants. To augment traditional cross-reactivity experiments, computational approaches for predicting the antigenic distance between multiple protein antigens are highly valuable. The performance of in silico models relies heavily on large-scale benchmark datasets, which are scattered among public databases and published articles or reports. Here, we present the first benchmark dataset of protein antigens with experimental evidence to guide in silico antigenicity calculations. This dataset includes (1) standard haemagglutination-inhibition (HI) tests for 3,867 influenza A/H3N2 strain pairs, (2) standard HI tests for 559 influenza virus B strain pairs, and (3) neutralization titres derived from 1,073 Dengue virus strain pairs. All of these datasets were collated and annotated with experimentally validated antigenicity relationships as well as sequence information for the corresponding protein antigens. We anticipate that this work will provide a benchmark dataset for in silico antigenicity prediction that could be further used to assist in epidemic surveillance and therapeutic vaccine design for viruses with variable antigenicity.

Publication types

Dataset
Research Support, Non-U.S. Gov't

MeSH terms

Antigenic Variation*
Antigens / chemistry*
Antigens, Viral / chemistry
Dengue Virus / immunology
Hemagglutination Inhibition Tests
Influenza A Virus, H3N2 Subtype / immunology
Influenza B virus / immunology
Neutralization Tests

Substances

Antigens
Antigens, Viral

Grants and funding

31900483/National Natural Science Foundation of China (National Science Foundation of China)/International