Active learning for computational chemogenomics

Daniel Reker; Petra Schneider; Gisbert Schneider; J B Brown

doi:10.4155/fmc-2016-0197

Active learning for computational chemogenomics

Future Med Chem. 2017 Mar;9(4):381-402. doi: 10.4155/fmc-2016-0197. Epub 2017 Mar 6.

Authors

Daniel Reker^{1

2}, Petra Schneider^{1

3}, Gisbert Schneider¹, J B Brown⁴

Affiliations

¹ Computer-Assisted Drug Design, Institute of Pharmaceutical Sciences, Department of Chemistry & Applied Biosciences, Swiss Federal Institute of Technology (ETH Zurich), Vladimir-Prelog-Weg 1-5/10, 8093 Zurich, Switzerland.
² Koch Institute for Integrative Cancer Research, Massachusetts Institute of Technology, 500 Main St, Cambridge, MA 02139, USA.
³ inSili.com GmbH, Segantinisteig 3, 8049 Zurich, Switzerland.
⁴ Kyoto University Graduate School of Medicine, Center for Medical Education, Life Science Informatics Research Unit, Kyoto 606-8501, Japan.

PMID: 28263088
DOI: 10.4155/fmc-2016-0197

Abstract

Aim: Computational chemogenomics models the compound-protein interaction space, typically for drug discovery, where existing methods predominantly either incorporate increasing numbers of bioactivity samples or focus on specific subfamilies of proteins and ligands. As an alternative to modeling entire large datasets at once, active learning adaptively incorporates a minimum of informative examples for modeling, yielding compact but high quality models. Results/methodology: We assessed active learning for protein/target family-wide chemogenomic modeling by replicate experiment. Results demonstrate that small yet highly predictive models can be extracted from only 10-25% of large bioactivity datasets, irrespective of molecule descriptors used.

Conclusion: Chemogenomic active learning identifies small subsets of ligand-target interactions in a large screening database that lead to knowledge discovery and highly predictive models.

Keywords: chemogenomics; computational chemistry and modeling; virtual screening.

Publication types

Research Support, Non-U.S. Gov't

MeSH terms

Binding Sites
Computational Biology / methods*
Computer Simulation
Databases, Chemical
Drug Discovery / methods*
Genomics
Ligands
Machine Learning*
Models, Chemical
Proteins / metabolism*

Substances

Ligands
Proteins