Learning Low-Dimensional Semantics for Music and Language via Multi-Subject fMRI

Francisco Afonso Raposo; David Martins de Matos; Ricardo Ribeiro

doi:10.1007/s12021-021-09560-5

Learning Low-Dimensional Semantics for Music and Language via Multi-Subject fMRI

Neuroinformatics. 2022 Apr;20(2):451-461. doi: 10.1007/s12021-021-09560-5. Epub 2022 Jan 7.

Authors

Francisco Afonso Raposo^{1

2}, David Martins de Matos^{3

4}, Ricardo Ribeiro^{3

5}

Affiliations

¹ INESC-ID Lisboa, R. Alves Redol 9, Lisboa, 1000-029, Portugal. francisco.afonso.raposo@tecnico.ulisboa.pt.
² Instituto Superior Técnico, Universidade de Lisboa, Av. Rovisco Pais, Lisboa, 1049-001, Portugal. francisco.afonso.raposo@tecnico.ulisboa.pt.
³ INESC-ID Lisboa, R. Alves Redol 9, Lisboa, 1000-029, Portugal.
⁴ Instituto Superior Técnico, Universidade de Lisboa, Av. Rovisco Pais, Lisboa, 1049-001, Portugal.
⁵ Instituto Universitário de Lisboa (ISCTE-IUL), Av. das Forças Armadas, Lisboa, 1649-026, Portugal.

PMID: 34993852
DOI: 10.1007/s12021-021-09560-5

Abstract

Embodied Cognition (EC) states that semantics is encoded in the brain as firing patterns of neural circuits, which are learned according to the statistical structure of human multimodal experience. However, each human brain is idiosyncratically biased, according to its subjective experience, making this biological semantic machinery noisy with respect to semantics inherent to media, such as music and language. We propose to represent media semantics using low-dimensional vector embeddings by jointly modeling the functional Magnetic Resonance Imaging (fMRI) activity of several brains via Generalized Canonical Correlation Analysis (GCCA). We evaluate the semantic richness of the resulting latent space in appropriate semantic classification tasks: music genres and language topics. We show that the resulting unsupervised representations outperform the original high-dimensional fMRI voxel spaces in these downstream tasks while being more computationally efficient. Furthermore, we show that joint modeling of several subjects increases the semantic richness of the learned latent vector spaces as the number of subjects increases. Quantitative results and corresponding statistical significance testing demonstrate the instantiation of music and language semantics in the brain, thereby providing further evidence for multimodal embodied cognition as well as a method for extraction of media semantics from multi-subject brain dynamics.

Keywords: Embodied cognition; Machine learning; Music; Natural language; Semantics; fMRI.

Publication types

Research Support, Non-U.S. Gov't

MeSH terms

Brain Mapping / methods
Humans
Language
Magnetic Resonance Imaging
Music*
Semantics*