:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Shi, Haoxiang, Zhang, Xulong, Cheng, Ning, Zhang, Yong, Yu, Jun, Xiao, Jing, Wang, Jianzong
Format:	Preprint
Published:	2024
Subjects:	Computation and Language
Online Access:	https://arxiv.org/abs/2405.17900
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

RSET: Remapping-based Sorting Method for Emotion Transfer Speech Synthesis
by: Shi, Haoxiang, et al.
Published: (2024)

ED-TTS: Multi-Scale Emotion Modeling using Cross-Domain Emotion Diarization for Emotional Speech Synthesis
by: Tang, Haobin, et al.
Published: (2024)

RREH: Reconstruction Relations Embedded Hashing for Semi-Paired Cross-Modal Retrieval
by: Wang, Jianzong, et al.
Published: (2024)

EmoTalker: Emotionally Editable Talking Face Generation via Diffusion Model
by: Zhang, Bingyuan, et al.
Published: (2024)

Centering Emotion Hotspots: Multimodal Local-Global Fusion and Cross-Modal Alignment for Emotion Recognition in Conversations
by: Liu, Yu, et al.
Published: (2025)

Emotional Cues Extraction and Fusion for Multi-modal Emotion Prediction and Recognition in Conversation
by: Shi, Haoxiang, et al.
Published: (2024)

ESARM: 3D Emotional Speech-to-Animation via Reward Model from Automatically-Ranked Demonstrations
by: Zhang, Xulong, et al.
Published: (2024)

Emotion-Anchored Contrastive Learning Framework for Emotion Recognition in Conversation
by: Yu, Fangxu, et al.
Published: (2024)

EAD-VC: Enhancing Speech Auto-Disentanglement for Voice Conversion with IFUB Estimator and Joint Text-Guided Consistent Learning
by: Liang, Ziqi, et al.
Published: (2024)

Adversarial Representation with Intra-Modal and Inter-Modal Graph Contrastive Learning for Multimodal Emotion Recognition
by: Shou, Yuntao, et al.
Published: (2023)

Enhancing Multimodal Emotion Recognition through Multi-Granularity Cross-Modal Alignment
by: Wang, Xuechen, et al.
Published: (2024)

QLSC: A Query Latent Semantic Calibrator for Robust Extractive Question Answering
by: Ouyang, Sheng, et al.
Published: (2024)

MAIN-VC: Lightweight Speech Representation Disentanglement for One-shot Voice Conversion
by: Li, Pengcheng, et al.
Published: (2024)

Emotion Transfer with Enhanced Prototype for Unseen Emotion Recognition in Conversation
by: Peng, Kun, et al.
Published: (2025)

Learning Disentangled Speech Representations with Contrastive Learning and Time-Invariant Retrieval
by: Deng, Yimin, et al.
Published: (2024)

CFN-ESA: A Cross-Modal Fusion Network with Emotion-Shift Awareness for Dialogue Emotion Recognition
by: Li, Jiang, et al.
Published: (2023)

EfficientASR: Speech Recognition Network Compression via Attention Redundancy and Chunk-Level FFN Optimization
by: Wang, Jianzong, et al.
Published: (2024)

CMATH: Cross-Modality Augmented Transformer with Hierarchical Variational Distillation for Multimodal Emotion Recognition in Conversation
by: Zhu, Xiaofei, et al.
Published: (2024)

DialogueLLM: Context and Emotion Knowledge-Tuned Large Language Models for Emotion Recognition in Conversations
by: Zhang, Yazhou, et al.
Published: (2023)

Learning Expressive Disentangled Speech Representations with Soft Speech Units and Adversarial Style Augmentation
by: Deng, Yimin, et al.
Published: (2024)

Cross-modal Context Fusion and Adaptive Graph Convolutional Network for Multimodal Conversational Emotion Recognition
by: Feng, Junwei, et al.
Published: (2025)

Distribution-based Emotion Recognition in Conversation
by: Wu, Wen, et al.
Published: (2022)

In-Context Examples Matter: Improving Emotion Recognition in Conversation with Instruction Tuning
by: Ma, Hui, et al.
Published: (2025)

Leveraging Biases in Large Language Models: "bias-kNN'' for Effective Few-Shot Learning
by: Zhang, Yong, et al.
Published: (2024)

Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition
by: Zhao, Ruoyu, et al.
Published: (2025)

Emotion Recognition in Sign Language Conversation
by: Wang, Yusong, et al.
Published: (2026)

Enhancing Meme Emotion Understanding with Multi-Level Modality Enhancement and Dual-Stage Modal Fusion
by: Shi, Yi, et al.
Published: (2025)

CONTUNER: Singing Voice Beautifying with Pitch and Expressiveness Condition
by: Wang, Jianzong, et al.
Published: (2024)

DQR-TTS: Semi-supervised Text-to-speech Synthesis with Dynamic Quantized Representation
by: Wang, Jianzong, et al.
Published: (2023)

Medical Speech Symptoms Classification via Disentangled Representation
by: Wang, Jianzong, et al.
Published: (2024)

Semi-Supervised Self-Learning Enhanced Music Emotion Recognition
by: Sun, Yifu, et al.
Published: (2024)

Contrastive Distillation of Emotion Knowledge from LLMs for Zero-Shot Emotion Recognition
by: Niu, Minxue, et al.
Published: (2025)

PFID: Privacy First Inference Delegation Framework for LLMs
by: Yang, Haoyan, et al.
Published: (2024)

A Cross-Corpus Speech Emotion Recognition Method Based on Supervised Contrastive Learning
by: minjie, Xiang
Published: (2024)

Multimodal Fusion via Hypergraph Autoencoder and Contrastive Learning for Emotion Recognition in Conversation
by: Yi, Zijian, et al.
Published: (2024)

AlignCap: Aligning Speech Emotion Captioning to Human Preferences
by: Liang, Ziqi, et al.
Published: (2024)

TelME: Teacher-leading Multimodal Fusion Network for Emotion Recognition in Conversation
by: Yun, Taeyang, et al.
Published: (2024)

A Two-Stage Multimodal Emotion Recognition Model Based on Graph Contrastive Learning
by: Ai, Wei, et al.
Published: (2024)

Revisiting Multimodal Emotion Recognition in Conversation from the Perspective of Graph Spectrum
by: Meng, Tao, et al.
Published: (2024)

AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations
by: Wu, Sheng, et al.
Published: (2024)