:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Shi, Jiacheng, Du, Hongfei, Hong, Y. Alicia, Gao, Ye
Format:	Preprint
Veröffentlicht:	2025
Schlagworte:	Sound Artificial Intelligence
Online-Zugang:	https://arxiv.org/abs/2509.25495
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

Emotion-Aligned Generation in Diffusion Text to Speech Models via Preference-Guided Optimization
von: Shi, Jiacheng, et al.
Veröffentlicht: (2025)

Plug-and-Play Emotion Graphs for Compositional Prompting in Zero-Shot Speech Emotion Recognition
von: Shi, Jiacheng, et al.
Veröffentlicht: (2025)

AffectCodec: Emotion-Preserving Neural Speech Codec for Expressive Speech Modeling
von: Shi, Jiacheng, et al.
Veröffentlicht: (2026)

Decoding Ambiguous Emotions with Test-Time Scaling in Audio-Language Models
von: Jia, Hong, et al.
Veröffentlicht: (2026)

Scaling Auditory Cognition via Test-Time Compute in Audio Language Models
von: Dang, Ting, et al.
Veröffentlicht: (2025)

Scaling Ambiguity: Augmenting Human Annotation in Speech Emotion Recognition with Audio-Language Models
von: Zhang, Wenda, et al.
Veröffentlicht: (2026)

LI-TTA: Language Informed Test-Time Adaptation for Automatic Speech Recognition
von: Yoon, Eunseop, et al.
Veröffentlicht: (2024)

MERaLiON-SER: Robust Speech Emotion Recognition Model for English and SEA Languages
von: Sailor, Hardik B., et al.
Veröffentlicht: (2025)

EMO-SUPERB: An In-depth Look at Speech Emotion Recognition
von: Wu, Haibin, et al.
Veröffentlicht: (2024)

EMO-RL: Emotion-Rule-Based Reinforcement Learning Enhanced Audio-Language Model for Generalized Speech Emotion Recognition
von: Li, Pengcheng, et al.
Veröffentlicht: (2025)

Active Learning with Task Adaptation Pre-training for Speech Emotion Recognition
von: Li, Dongyuan, et al.
Veröffentlicht: (2024)

Audio-Guided Fusion Techniques for Multimodal Emotion Analysis
von: Shi, Pujin, et al.
Veröffentlicht: (2024)

Improving Audio Event Recognition with Consistency Regularization
von: Sadhu, Shanmuka, et al.
Veröffentlicht: (2025)

Test-Time Adaptation for Speech Emotion Recognition
von: Dong, Jiaheng, et al.
Veröffentlicht: (2026)

Speech Emotion Recognition via Entropy-Aware Score Selection
von: Chua, ChenYi, et al.
Veröffentlicht: (2025)

Color-based Emotion Representation for Speech Emotion Recognition
von: Nagase, Ryotaro, et al.
Veröffentlicht: (2026)

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction
von: Yu, Xiaofeng, et al.
Veröffentlicht: (2026)

The Multimodal Information Based Speech Processing (MISP) 2025 Challenge: Audio-Visual Diarization and Recognition
von: Gao, Ming, et al.
Veröffentlicht: (2025)

Towards Fine-grained Temporal Perception: Post-Training Large Audio-Language Models with Audio-Side Time Prompt
von: Shi, Yanfeng, et al.
Veröffentlicht: (2026)

Deep Learning for Speech Emotion Recognition: A CNN Approach Utilizing Mel Spectrograms
von: Penumajji, Niketa
Veröffentlicht: (2025)

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition
von: Gheffari, Youcef Soufiane, et al.
Veröffentlicht: (2026)

Exploring How Audio Effects Alter Emotion with Foundation Models
von: Katsis, Stelios, et al.
Veröffentlicht: (2025)

$\texttt{AVROBUSTBENCH}$: Benchmarking the Robustness of Audio-Visual Recognition Models at Test-Time
von: Maharana, Sarthak Kumar, et al.
Veröffentlicht: (2025)

Enabling Automatic Disordered Speech Recognition: An Impaired Speech Dataset in the Akan Language
von: Wiafe, Isaac, et al.
Veröffentlicht: (2026)

Persian Speech Emotion Recognition by Fine-Tuning Transformers
von: Shayaninasab, Minoo, et al.
Veröffentlicht: (2024)

SLM-SS: Speech Language Model for Generative Speech Separation
von: Li, Tianhua, et al.
Veröffentlicht: (2026)

Leveraging Speech PTM, Text LLM, and Emotional TTS for Speech Emotion Recognition
von: Ma, Ziyang, et al.
Veröffentlicht: (2023)

Serialized Speech Information Guidance with Overlapped Encoding Separation for Multi-Speaker Automatic Speech Recognition
von: Shi, Hao, et al.
Veröffentlicht: (2024)

Jointly Fine-Tuning "BERT-like" Self Supervised Models to Improve Multimodal Speech Emotion Recognition
von: Siriwardhana, Shamane, et al.
Veröffentlicht: (2020)

Towards Explicit Acoustic Evidence Perception in Audio LLMs for Speech Deepfake Detection
von: Guo, Xiaoxuan, et al.
Veröffentlicht: (2026)

Efficient Finetuning for Dimensional Speech Emotion Recognition in the Age of Transformers
von: Sampath, Aneesha, et al.
Veröffentlicht: (2025)

Human or Machine? A Preliminary Turing Test for Speech-to-Speech Interaction
von: Li, Xiang, et al.
Veröffentlicht: (2026)

PTS-SNN: A Prompt-Tuned Temporal Shift Spiking Neural Networks for Efficient Speech Emotion Recognition
von: Su, Xun, et al.
Veröffentlicht: (2026)

Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering
von: Glazer, Neta, et al.
Veröffentlicht: (2026)

SLM-TTA: A Framework for Test-Time Adaptation of Generative Spoken Language Models
von: Wu, Yuan-Kuei, et al.
Veröffentlicht: (2025)

Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder
von: Dai, Yusheng, et al.
Veröffentlicht: (2023)

Improvement and Implementation of a Speech Emotion Recognition Model Based on Dual-Layer LSTM
von: Yang, Xiaoran, et al.
Veröffentlicht: (2024)

Speech Emotion Recognition Using MFCC Features and LSTM-Based Deep Learning Model
von: Oluwademilade, Adelekun, et al.
Veröffentlicht: (2026)

Do Audio-Visual Large Language Models Really See and Hear?
von: Selvakumar, Ramaneswaran, et al.
Veröffentlicht: (2026)

Eureka-Audio: Triggering Audio Intelligence in Compact Language Models
von: Zhang, Dan, et al.
Veröffentlicht: (2026)