Clipper: p-value-free FDR control on high-throughput data from two conditions

Xinzhou Ge; Yiling Elaine Chen; Dongyuan Song; MeiLu McDermott; Kyla Woyshner; Antigoni Manousopoulou; Ning Wang; Wei Li; Leo D Wang; Jingyi Jessica Li

doi:10.1186/s13059-021-02506-9

Clipper: p-value-free FDR control on high-throughput data from two conditions

Genome Biol. 2021 Oct 11;22(1):288. doi: 10.1186/s13059-021-02506-9.

Authors

Xinzhou Ge^#¹, Yiling Elaine Chen^#¹, Dongyuan Song², MeiLu McDermott^{3

4}, Kyla Woyshner³, Antigoni Manousopoulou³, Ning Wang², Wei Li⁵, Leo D Wang³, Jingyi Jessica Li^{6

7

8

9

10}

Affiliations

¹ Department of Statistics, University of California, Los Angeles, 90095, CA, USA.
² Interdepartmental Program in Bioinformatics, University of California, Los Angeles, 90095, CA, USA.
³ Beckman Research Institute, City of Hope National Medical Center, Duarte, 91010, CA, USA.
⁴ The Quantitative and Computational Biology section, University of Southern California, Los Angeles, 90089, CA, USA.
⁵ Division of Computational Biomedicine, Department of Biological Chemistry, School of Medicine, University of California, Irvine, 92697, CA, USA.
⁶ Department of Statistics, University of California, Los Angeles, 90095, CA, USA. jli@stat.ucla.edu.
⁷ Interdepartmental Program in Bioinformatics, University of California, Los Angeles, 90095, CA, USA. jli@stat.ucla.edu.
⁸ Department of Human Genetics, University of California, Los Angeles, 90095, CA, USA. jli@stat.ucla.edu.
⁹ Department of Computational Medicine, University of California, Los Angeles, 90095, CA, USA. jli@stat.ucla.edu.
¹⁰ Department of Biostatistics, University of California, Los Angeles, 90095, CA, USA. jli@stat.ucla.edu.

^# Contributed equally.

Abstract

High-throughput biological data analysis commonly involves identifying features such as genes, genomic regions, and proteins, whose values differ between two conditions, from numerous features measured simultaneously. The most widely used criterion to ensure the analysis reliability is the false discovery rate (FDR), which is primarily controlled based on p-values. However, obtaining valid p-values relies on either reasonable assumptions of data distribution or large numbers of replicates under both conditions. Clipper is a general statistical framework for FDR control without relying on p-values or specific data distributions. Clipper outperforms existing methods for a broad range of applications in high-throughput data analysis.

Publication types

Evaluation Study
Research Support, N.I.H., Extramural
Research Support, Non-U.S. Gov't
Research Support, U.S. Gov't, Non-P.H.S.

MeSH terms

Chromatin Immunoprecipitation Sequencing / methods
Chromosomes
Computer Simulation
Data Interpretation, Statistical
High-Throughput Nucleotide Sequencing / methods*
Humans
Mass Spectrometry
Peptides / chemistry
Proteomics / methods
RNA-Seq / methods
Single-Cell Analysis
Software*

Substances

Peptides

Abstract

Publication types

MeSH terms

Substances

Grants and funding