Sommario: :: Library Catalog

Salvato in:

Dettagli Bibliografici
Autori principali:	Shi, Jiacheng, Du, Hongfei, Hong, Y. Alicia, Gao, Ye
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Sound Artificial Intelligence
Accesso online:	https://arxiv.org/abs/2509.25495
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Sommario:

Speech emotion recognition (SER) with audio-language models (ALMs) remains vulnerable to distribution shifts at test time, leading to performance degradation in out-of-domain scenarios. Test-time adaptation (TTA) provides a promising solution but often relies on gradient-based updates or prompt tuning, limiting flexibility and practicality. We propose Emo-TTA, a lightweight, training-free adaptation framework that incrementally updates class-conditional statistics via an Expectation-Maximization procedure for explicit test-time distribution estimation, using ALM predictions as priors. Emo-TTA operates on individual test samples without modifying model weights. Experiments on six out-of-domain SER benchmarks show consistent accuracy improvements over prior TTA baselines, demonstrating the effectiveness of statistical adaptation in aligning model predictions with evolving test distributions.

Documenti analoghi