Discriminative multimodal learning via conditional priors in generative models

Rogelio A Mancisidor; Michael Kampffmeyer; Kjersti Aas; Robert Jenssen

doi:10.1016/j.neunet.2023.10.048

Discriminative multimodal learning via conditional priors in generative models

Neural Netw. 2024 Jan:169:417-430. doi: 10.1016/j.neunet.2023.10.048. Epub 2023 Nov 2.

Authors

Rogelio A Mancisidor¹, Michael Kampffmeyer², Kjersti Aas³, Robert Jenssen⁴

Affiliations

¹ Department of Data Science and Analytics, BI Norwegian Business School, Nydalsveien 37, 0484 Oslo, Norway. Electronic address: rogelio.a.mancisidor@bi.no.
² Department of Physics and Technology, Faculty of Science and Technology, UiT The Arctic University of Norway, Hansine Hansens veg 18, 9037 Tromsø, Norway; Norwegian Computing Center, P.O. Box 114 Blindern Oslo, Norway. Electronic address: michael.c.kampffmeyer@uit.no.
³ Norwegian Computing Center, P.O. Box 114 Blindern Oslo, Norway. Electronic address: kjersti@nr.no.
⁴ Department of Physics and Technology, Faculty of Science and Technology, UiT The Arctic University of Norway, Hansine Hansens veg 18, 9037 Tromsø, Norway; Norwegian Computing Center, P.O. Box 114 Blindern Oslo, Norway. Electronic address: robert.jenssen@uit.no.

PMID: 37931473
DOI: 10.1016/j.neunet.2023.10.048

Abstract

Deep generative models with latent variables have been used lately to learn joint representations and generative processes from multi-modal data, which depict an object from different viewpoints. These two learning mechanisms can, however, conflict with each other and representations can fail to embed information on the data modalities. This research studies the realistic scenario in which all modalities and class labels are available for model training, e.g. images or handwriting, but where some modalities and labels required for downstream tasks are missing, e.g. text or annotations. We show, in this scenario, that the variational lower bound limits mutual information between joint representations and missing modalities. We, to counteract these problems, introduce a novel conditional multi-modal discriminative model that uses an informative prior distribution and optimizes a likelihood-free objective function that maximizes mutual information between joint representations and missing modalities. Extensive experimentation demonstrates the benefits of our proposed model, empirical results show that our model achieves state-of-the-art results in representative problems such as downstream classification, acoustic inversion, and image and annotation generation.

Keywords: Generative models; Multimodal learning; Representation learning; Variational autoencoder.

MeSH terms

Acoustics
Discrimination Learning*
Empirical Research
Handwriting
Learning*