:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Feng, Tiantian, Zhang, Tuo, Avestimehr, Salman, Narayanan, Shrikanth S.
Natura:	Preprint
Pubblicazione:	2024
Soggetti:	Audio and Speech Processing Artificial Intelligence Sound
Accesso online:	https://arxiv.org/abs/2408.15803
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Egocentric Speaker Classification in Child-Adult Dyadic Interactions: From Sensing to Computational Modeling
di: Feng, Tiantian, et al.
Pubblicazione: (2024)

PEFT-SER: On the Use of Parameter Efficient Transfer Learning Approaches For Speech Emotion Recognition Using Pre-trained Speech Models
di: Feng, Tiantian, et al.
Pubblicazione: (2023)

Can Synthetic Audio From Generative Foundation Models Assist Audio Recognition and Speech Modeling?
di: Feng, Tiantian, et al.
Pubblicazione: (2024)

TI-ASU: Toward Robust Automatic Speech Understanding through Text-to-speech Imputation Against Missing Speech Modality
di: Feng, Tiantian, et al.
Pubblicazione: (2024)

VoxCog: Towards End-to-End Multilingual Cognitive Impairment Classification through Dialectal Knowledge
di: Feng, Tiantian, et al.
Pubblicazione: (2026)

Joint ASR and Speaker Role Tagging with Serialized Output Training
di: Xu, Anfeng, et al.
Pubblicazione: (2025)

Audio-visual child-adult speaker classification in dyadic interactions
di: Xu, Anfeng, et al.
Pubblicazione: (2023)

Toward Fully-End-to-End Listened Speech Decoding from EEG Signals
di: Lee, Jihwan, et al.
Pubblicazione: (2024)

Developing a Top-tier Framework in Naturalistic Conditions Challenge for Categorized Emotion Prediction: From Speech Foundation Models and Learning Objective to Data Augmentation and Engineering Choices
di: Feng, Tiantian, et al.
Pubblicazione: (2025)

Domain Adaptation Method and Modality Gap Impact in Audio-Text Models for Prototypical Sound Classification
di: Acevedo, Emiliano, et al.
Pubblicazione: (2025)

Emotion-Aligned Contrastive Learning Between Images and Music
di: Stewart, Shanti, et al.
Pubblicazione: (2023)

Affect Decoding in Phonated and Silent Speech Production from Surface EMG
di: Pistrosch, Simon, et al.
Pubblicazione: (2026)

End-to-End Joint ASR and Speaker Role Diarization with Child-Adult Interactions
di: Xu, Anfeng, et al.
Pubblicazione: (2026)

Trade-offs Between Capacity and Robustness in Neural Audio Codecs for Adversarially Robust Speech Recognition
di: Prescott, Jordan, et al.
Pubblicazione: (2026)

CapSpeech: Enabling Downstream Applications in Style-Captioned Text-to-Speech
di: Wang, Helin, et al.
Pubblicazione: (2025)

Can Layer-wise SSL Features Improve Zero-Shot ASR Performance for Children's Speech?
di: Sinha, Abhijit, et al.
Pubblicazione: (2025)

SightSound-R1: Cross-Modal Reasoning Distillation from Vision to Audio Language Models
di: Wang, Qiaolin, et al.
Pubblicazione: (2025)

BTS: Bridging Text and Sound Modalities for Metadata-Aided Respiratory Sound Classification
di: Kim, June-Woo, et al.
Pubblicazione: (2024)

Bridging Modalities: Knowledge Distillation and Masked Training for Translating Multi-Modal Emotion Recognition to Uni-Modal, Speech-Only Emotion Recognition
di: Muaz, Muhammad, et al.
Pubblicazione: (2024)

Improving Respiratory Sound Classification with Architecture-Agnostic Knowledge Distillation from Ensembles
di: Toikkanen, Miika, et al.
Pubblicazione: (2025)

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs
di: Zhang, Hezhao, et al.
Pubblicazione: (2026)

Lightweight Joint Audio-Visual Deepfake Detection via Single-Stream Multi-Modal Learning Framework
di: Zhang, Kuiyuan, et al.
Pubblicazione: (2025)

CORD: Bridging the Audio-Text Reasoning Gap via Weighted On-policy Cross-modal Distillation
di: Hu, Jing, et al.
Pubblicazione: (2026)

Audio Mamba: Bidirectional State Space Model for Audio Representation Learning
di: Erol, Mehmet Hamza, et al.
Pubblicazione: (2024)

Articulatory Feature Prediction from Surface EMG during Speech Production
di: Lee, Jihwan, et al.
Pubblicazione: (2025)

WhisQ: Cross-Modal Representation Learning for Text-to-Music MOS Prediction
di: Emon, Jakaria Islam, et al.
Pubblicazione: (2025)

DDFAD: Dataset Distillation Framework for Audio Data
di: Jiang, Wenbo, et al.
Pubblicazione: (2024)

Mind the Prompt: Prompting Strategies in Audio Generations for Improving Sound Classification
di: Ronchini, Francesca, et al.
Pubblicazione: (2025)

Fundamental Survey on Neuromorphic Based Audio Classification
di: Basu, Amlan, et al.
Pubblicazione: (2025)

On the Relationship between Accent Strength and Articulatory Features
di: Huang, Kevin, et al.
Pubblicazione: (2025)

Leveraging Audio and Text Modalities in Mental Health: A Study of LLMs Performance
di: Ali, Abdelrahman A., et al.
Pubblicazione: (2024)

Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder
di: Dai, Yusheng, et al.
Pubblicazione: (2023)

Enhancing Retrieval-Augmented Audio Captioning with Generation-Assisted Multimodal Querying and Progressive Learning
di: Changin, Choi, et al.
Pubblicazione: (2024)

Audio-Guided Fusion Techniques for Multimodal Emotion Analysis
di: Shi, Pujin, et al.
Pubblicazione: (2024)

Sync-TVA: A Graph-Attention Framework for Multimodal Emotion Recognition with Cross-Modal Fusion
di: Deng, Zeyu, et al.
Pubblicazione: (2025)

PodEval: A Multimodal Evaluation Framework for Podcast Audio Generation
di: Xiao, Yujia, et al.
Pubblicazione: (2025)

FusionAudio-1.2M: Towards Fine-grained Audio Captioning with Multimodal Contextual Fusion
di: Chen, Shunian, et al.
Pubblicazione: (2025)

4,500 Seconds: Small Data Training Approaches for Deep UAV Audio Classification
di: Berg, Andrew P., et al.
Pubblicazione: (2025)

NeuroSpex: Neuro-Guided Speaker Extraction with Cross-Modal Attention
di: De Silva, Dashanka, et al.
Pubblicazione: (2024)

COMET: Concept Space Dissection of the Modality Gap in Audio-Text Multimodal Contrastive Embeddings
di: Zhu, Yonggang, et al.
Pubblicazione: (2026)