Gespeichert in:
| Hauptverfasser: | Shi, Jiacheng, Du, Hongfei, Hong, Y. Alicia, Gao, Ye |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2025
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2509.25495 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Emotion-Aligned Generation in Diffusion Text to Speech Models via Preference-Guided Optimization
von: Shi, Jiacheng, et al.
Veröffentlicht: (2025)
von: Shi, Jiacheng, et al.
Veröffentlicht: (2025)
Plug-and-Play Emotion Graphs for Compositional Prompting in Zero-Shot Speech Emotion Recognition
von: Shi, Jiacheng, et al.
Veröffentlicht: (2025)
von: Shi, Jiacheng, et al.
Veröffentlicht: (2025)
AffectCodec: Emotion-Preserving Neural Speech Codec for Expressive Speech Modeling
von: Shi, Jiacheng, et al.
Veröffentlicht: (2026)
von: Shi, Jiacheng, et al.
Veröffentlicht: (2026)
Decoding Ambiguous Emotions with Test-Time Scaling in Audio-Language Models
von: Jia, Hong, et al.
Veröffentlicht: (2026)
von: Jia, Hong, et al.
Veröffentlicht: (2026)
Scaling Auditory Cognition via Test-Time Compute in Audio Language Models
von: Dang, Ting, et al.
Veröffentlicht: (2025)
von: Dang, Ting, et al.
Veröffentlicht: (2025)
Scaling Ambiguity: Augmenting Human Annotation in Speech Emotion Recognition with Audio-Language Models
von: Zhang, Wenda, et al.
Veröffentlicht: (2026)
von: Zhang, Wenda, et al.
Veröffentlicht: (2026)
LI-TTA: Language Informed Test-Time Adaptation for Automatic Speech Recognition
von: Yoon, Eunseop, et al.
Veröffentlicht: (2024)
von: Yoon, Eunseop, et al.
Veröffentlicht: (2024)
MERaLiON-SER: Robust Speech Emotion Recognition Model for English and SEA Languages
von: Sailor, Hardik B., et al.
Veröffentlicht: (2025)
von: Sailor, Hardik B., et al.
Veröffentlicht: (2025)
EMO-SUPERB: An In-depth Look at Speech Emotion Recognition
von: Wu, Haibin, et al.
Veröffentlicht: (2024)
von: Wu, Haibin, et al.
Veröffentlicht: (2024)
EMO-RL: Emotion-Rule-Based Reinforcement Learning Enhanced Audio-Language Model for Generalized Speech Emotion Recognition
von: Li, Pengcheng, et al.
Veröffentlicht: (2025)
von: Li, Pengcheng, et al.
Veröffentlicht: (2025)
Active Learning with Task Adaptation Pre-training for Speech Emotion Recognition
von: Li, Dongyuan, et al.
Veröffentlicht: (2024)
von: Li, Dongyuan, et al.
Veröffentlicht: (2024)
Audio-Guided Fusion Techniques for Multimodal Emotion Analysis
von: Shi, Pujin, et al.
Veröffentlicht: (2024)
von: Shi, Pujin, et al.
Veröffentlicht: (2024)
Improving Audio Event Recognition with Consistency Regularization
von: Sadhu, Shanmuka, et al.
Veröffentlicht: (2025)
von: Sadhu, Shanmuka, et al.
Veröffentlicht: (2025)
Test-Time Adaptation for Speech Emotion Recognition
von: Dong, Jiaheng, et al.
Veröffentlicht: (2026)
von: Dong, Jiaheng, et al.
Veröffentlicht: (2026)
Speech Emotion Recognition via Entropy-Aware Score Selection
von: Chua, ChenYi, et al.
Veröffentlicht: (2025)
von: Chua, ChenYi, et al.
Veröffentlicht: (2025)
Color-based Emotion Representation for Speech Emotion Recognition
von: Nagase, Ryotaro, et al.
Veröffentlicht: (2026)
von: Nagase, Ryotaro, et al.
Veröffentlicht: (2026)
Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction
von: Yu, Xiaofeng, et al.
Veröffentlicht: (2026)
von: Yu, Xiaofeng, et al.
Veröffentlicht: (2026)
The Multimodal Information Based Speech Processing (MISP) 2025 Challenge: Audio-Visual Diarization and Recognition
von: Gao, Ming, et al.
Veröffentlicht: (2025)
von: Gao, Ming, et al.
Veröffentlicht: (2025)
Towards Fine-grained Temporal Perception: Post-Training Large Audio-Language Models with Audio-Side Time Prompt
von: Shi, Yanfeng, et al.
Veröffentlicht: (2026)
von: Shi, Yanfeng, et al.
Veröffentlicht: (2026)
Deep Learning for Speech Emotion Recognition: A CNN Approach Utilizing Mel Spectrograms
von: Penumajji, Niketa
Veröffentlicht: (2025)
von: Penumajji, Niketa
Veröffentlicht: (2025)
Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition
von: Gheffari, Youcef Soufiane, et al.
Veröffentlicht: (2026)
von: Gheffari, Youcef Soufiane, et al.
Veröffentlicht: (2026)
Exploring How Audio Effects Alter Emotion with Foundation Models
von: Katsis, Stelios, et al.
Veröffentlicht: (2025)
von: Katsis, Stelios, et al.
Veröffentlicht: (2025)
$\texttt{AVROBUSTBENCH}$: Benchmarking the Robustness of Audio-Visual Recognition Models at Test-Time
von: Maharana, Sarthak Kumar, et al.
Veröffentlicht: (2025)
von: Maharana, Sarthak Kumar, et al.
Veröffentlicht: (2025)
Enabling Automatic Disordered Speech Recognition: An Impaired Speech Dataset in the Akan Language
von: Wiafe, Isaac, et al.
Veröffentlicht: (2026)
von: Wiafe, Isaac, et al.
Veröffentlicht: (2026)
Persian Speech Emotion Recognition by Fine-Tuning Transformers
von: Shayaninasab, Minoo, et al.
Veröffentlicht: (2024)
von: Shayaninasab, Minoo, et al.
Veröffentlicht: (2024)
SLM-SS: Speech Language Model for Generative Speech Separation
von: Li, Tianhua, et al.
Veröffentlicht: (2026)
von: Li, Tianhua, et al.
Veröffentlicht: (2026)
Leveraging Speech PTM, Text LLM, and Emotional TTS for Speech Emotion Recognition
von: Ma, Ziyang, et al.
Veröffentlicht: (2023)
von: Ma, Ziyang, et al.
Veröffentlicht: (2023)
Serialized Speech Information Guidance with Overlapped Encoding Separation for Multi-Speaker Automatic Speech Recognition
von: Shi, Hao, et al.
Veröffentlicht: (2024)
von: Shi, Hao, et al.
Veröffentlicht: (2024)
Jointly Fine-Tuning "BERT-like" Self Supervised Models to Improve Multimodal Speech Emotion Recognition
von: Siriwardhana, Shamane, et al.
Veröffentlicht: (2020)
von: Siriwardhana, Shamane, et al.
Veröffentlicht: (2020)
Towards Explicit Acoustic Evidence Perception in Audio LLMs for Speech Deepfake Detection
von: Guo, Xiaoxuan, et al.
Veröffentlicht: (2026)
von: Guo, Xiaoxuan, et al.
Veröffentlicht: (2026)
Efficient Finetuning for Dimensional Speech Emotion Recognition in the Age of Transformers
von: Sampath, Aneesha, et al.
Veröffentlicht: (2025)
von: Sampath, Aneesha, et al.
Veröffentlicht: (2025)
Human or Machine? A Preliminary Turing Test for Speech-to-Speech Interaction
von: Li, Xiang, et al.
Veröffentlicht: (2026)
von: Li, Xiang, et al.
Veröffentlicht: (2026)
PTS-SNN: A Prompt-Tuned Temporal Shift Spiking Neural Networks for Efficient Speech Emotion Recognition
von: Su, Xun, et al.
Veröffentlicht: (2026)
von: Su, Xun, et al.
Veröffentlicht: (2026)
Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering
von: Glazer, Neta, et al.
Veröffentlicht: (2026)
von: Glazer, Neta, et al.
Veröffentlicht: (2026)
SLM-TTA: A Framework for Test-Time Adaptation of Generative Spoken Language Models
von: Wu, Yuan-Kuei, et al.
Veröffentlicht: (2025)
von: Wu, Yuan-Kuei, et al.
Veröffentlicht: (2025)
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder
von: Dai, Yusheng, et al.
Veröffentlicht: (2023)
von: Dai, Yusheng, et al.
Veröffentlicht: (2023)
Improvement and Implementation of a Speech Emotion Recognition Model Based on Dual-Layer LSTM
von: Yang, Xiaoran, et al.
Veröffentlicht: (2024)
von: Yang, Xiaoran, et al.
Veröffentlicht: (2024)
Speech Emotion Recognition Using MFCC Features and LSTM-Based Deep Learning Model
von: Oluwademilade, Adelekun, et al.
Veröffentlicht: (2026)
von: Oluwademilade, Adelekun, et al.
Veröffentlicht: (2026)
Do Audio-Visual Large Language Models Really See and Hear?
von: Selvakumar, Ramaneswaran, et al.
Veröffentlicht: (2026)
von: Selvakumar, Ramaneswaran, et al.
Veröffentlicht: (2026)
Eureka-Audio: Triggering Audio Intelligence in Compact Language Models
von: Zhang, Dan, et al.
Veröffentlicht: (2026)
von: Zhang, Dan, et al.
Veröffentlicht: (2026)
Ähnliche Einträge
-
Emotion-Aligned Generation in Diffusion Text to Speech Models via Preference-Guided Optimization
von: Shi, Jiacheng, et al.
Veröffentlicht: (2025) -
Plug-and-Play Emotion Graphs for Compositional Prompting in Zero-Shot Speech Emotion Recognition
von: Shi, Jiacheng, et al.
Veröffentlicht: (2025) -
AffectCodec: Emotion-Preserving Neural Speech Codec for Expressive Speech Modeling
von: Shi, Jiacheng, et al.
Veröffentlicht: (2026) -
Decoding Ambiguous Emotions with Test-Time Scaling in Audio-Language Models
von: Jia, Hong, et al.
Veröffentlicht: (2026) -
Scaling Auditory Cognition via Test-Time Compute in Audio Language Models
von: Dang, Ting, et al.
Veröffentlicht: (2025)