Salvato in:
| Autori principali: | Feng, Tiantian, Zhang, Tuo, Avestimehr, Salman, Narayanan, Shrikanth S. |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2024
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2408.15803 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Egocentric Speaker Classification in Child-Adult Dyadic Interactions: From Sensing to Computational Modeling
di: Feng, Tiantian, et al.
Pubblicazione: (2024)
di: Feng, Tiantian, et al.
Pubblicazione: (2024)
PEFT-SER: On the Use of Parameter Efficient Transfer Learning Approaches For Speech Emotion Recognition Using Pre-trained Speech Models
di: Feng, Tiantian, et al.
Pubblicazione: (2023)
di: Feng, Tiantian, et al.
Pubblicazione: (2023)
Can Synthetic Audio From Generative Foundation Models Assist Audio Recognition and Speech Modeling?
di: Feng, Tiantian, et al.
Pubblicazione: (2024)
di: Feng, Tiantian, et al.
Pubblicazione: (2024)
TI-ASU: Toward Robust Automatic Speech Understanding through Text-to-speech Imputation Against Missing Speech Modality
di: Feng, Tiantian, et al.
Pubblicazione: (2024)
di: Feng, Tiantian, et al.
Pubblicazione: (2024)
VoxCog: Towards End-to-End Multilingual Cognitive Impairment Classification through Dialectal Knowledge
di: Feng, Tiantian, et al.
Pubblicazione: (2026)
di: Feng, Tiantian, et al.
Pubblicazione: (2026)
Joint ASR and Speaker Role Tagging with Serialized Output Training
di: Xu, Anfeng, et al.
Pubblicazione: (2025)
di: Xu, Anfeng, et al.
Pubblicazione: (2025)
Audio-visual child-adult speaker classification in dyadic interactions
di: Xu, Anfeng, et al.
Pubblicazione: (2023)
di: Xu, Anfeng, et al.
Pubblicazione: (2023)
Toward Fully-End-to-End Listened Speech Decoding from EEG Signals
di: Lee, Jihwan, et al.
Pubblicazione: (2024)
di: Lee, Jihwan, et al.
Pubblicazione: (2024)
Developing a Top-tier Framework in Naturalistic Conditions Challenge for Categorized Emotion Prediction: From Speech Foundation Models and Learning Objective to Data Augmentation and Engineering Choices
di: Feng, Tiantian, et al.
Pubblicazione: (2025)
di: Feng, Tiantian, et al.
Pubblicazione: (2025)
Domain Adaptation Method and Modality Gap Impact in Audio-Text Models for Prototypical Sound Classification
di: Acevedo, Emiliano, et al.
Pubblicazione: (2025)
di: Acevedo, Emiliano, et al.
Pubblicazione: (2025)
Emotion-Aligned Contrastive Learning Between Images and Music
di: Stewart, Shanti, et al.
Pubblicazione: (2023)
di: Stewart, Shanti, et al.
Pubblicazione: (2023)
Affect Decoding in Phonated and Silent Speech Production from Surface EMG
di: Pistrosch, Simon, et al.
Pubblicazione: (2026)
di: Pistrosch, Simon, et al.
Pubblicazione: (2026)
End-to-End Joint ASR and Speaker Role Diarization with Child-Adult Interactions
di: Xu, Anfeng, et al.
Pubblicazione: (2026)
di: Xu, Anfeng, et al.
Pubblicazione: (2026)
Trade-offs Between Capacity and Robustness in Neural Audio Codecs for Adversarially Robust Speech Recognition
di: Prescott, Jordan, et al.
Pubblicazione: (2026)
di: Prescott, Jordan, et al.
Pubblicazione: (2026)
CapSpeech: Enabling Downstream Applications in Style-Captioned Text-to-Speech
di: Wang, Helin, et al.
Pubblicazione: (2025)
di: Wang, Helin, et al.
Pubblicazione: (2025)
Can Layer-wise SSL Features Improve Zero-Shot ASR Performance for Children's Speech?
di: Sinha, Abhijit, et al.
Pubblicazione: (2025)
di: Sinha, Abhijit, et al.
Pubblicazione: (2025)
SightSound-R1: Cross-Modal Reasoning Distillation from Vision to Audio Language Models
di: Wang, Qiaolin, et al.
Pubblicazione: (2025)
di: Wang, Qiaolin, et al.
Pubblicazione: (2025)
BTS: Bridging Text and Sound Modalities for Metadata-Aided Respiratory Sound Classification
di: Kim, June-Woo, et al.
Pubblicazione: (2024)
di: Kim, June-Woo, et al.
Pubblicazione: (2024)
Bridging Modalities: Knowledge Distillation and Masked Training for Translating Multi-Modal Emotion Recognition to Uni-Modal, Speech-Only Emotion Recognition
di: Muaz, Muhammad, et al.
Pubblicazione: (2024)
di: Muaz, Muhammad, et al.
Pubblicazione: (2024)
Improving Respiratory Sound Classification with Architecture-Agnostic Knowledge Distillation from Ensembles
di: Toikkanen, Miika, et al.
Pubblicazione: (2025)
di: Toikkanen, Miika, et al.
Pubblicazione: (2025)
VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs
di: Zhang, Hezhao, et al.
Pubblicazione: (2026)
di: Zhang, Hezhao, et al.
Pubblicazione: (2026)
Lightweight Joint Audio-Visual Deepfake Detection via Single-Stream Multi-Modal Learning Framework
di: Zhang, Kuiyuan, et al.
Pubblicazione: (2025)
di: Zhang, Kuiyuan, et al.
Pubblicazione: (2025)
CORD: Bridging the Audio-Text Reasoning Gap via Weighted On-policy Cross-modal Distillation
di: Hu, Jing, et al.
Pubblicazione: (2026)
di: Hu, Jing, et al.
Pubblicazione: (2026)
Audio Mamba: Bidirectional State Space Model for Audio Representation Learning
di: Erol, Mehmet Hamza, et al.
Pubblicazione: (2024)
di: Erol, Mehmet Hamza, et al.
Pubblicazione: (2024)
Articulatory Feature Prediction from Surface EMG during Speech Production
di: Lee, Jihwan, et al.
Pubblicazione: (2025)
di: Lee, Jihwan, et al.
Pubblicazione: (2025)
WhisQ: Cross-Modal Representation Learning for Text-to-Music MOS Prediction
di: Emon, Jakaria Islam, et al.
Pubblicazione: (2025)
di: Emon, Jakaria Islam, et al.
Pubblicazione: (2025)
DDFAD: Dataset Distillation Framework for Audio Data
di: Jiang, Wenbo, et al.
Pubblicazione: (2024)
di: Jiang, Wenbo, et al.
Pubblicazione: (2024)
Mind the Prompt: Prompting Strategies in Audio Generations for Improving Sound Classification
di: Ronchini, Francesca, et al.
Pubblicazione: (2025)
di: Ronchini, Francesca, et al.
Pubblicazione: (2025)
Fundamental Survey on Neuromorphic Based Audio Classification
di: Basu, Amlan, et al.
Pubblicazione: (2025)
di: Basu, Amlan, et al.
Pubblicazione: (2025)
On the Relationship between Accent Strength and Articulatory Features
di: Huang, Kevin, et al.
Pubblicazione: (2025)
di: Huang, Kevin, et al.
Pubblicazione: (2025)
Leveraging Audio and Text Modalities in Mental Health: A Study of LLMs Performance
di: Ali, Abdelrahman A., et al.
Pubblicazione: (2024)
di: Ali, Abdelrahman A., et al.
Pubblicazione: (2024)
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder
di: Dai, Yusheng, et al.
Pubblicazione: (2023)
di: Dai, Yusheng, et al.
Pubblicazione: (2023)
Enhancing Retrieval-Augmented Audio Captioning with Generation-Assisted Multimodal Querying and Progressive Learning
di: Changin, Choi, et al.
Pubblicazione: (2024)
di: Changin, Choi, et al.
Pubblicazione: (2024)
Audio-Guided Fusion Techniques for Multimodal Emotion Analysis
di: Shi, Pujin, et al.
Pubblicazione: (2024)
di: Shi, Pujin, et al.
Pubblicazione: (2024)
Sync-TVA: A Graph-Attention Framework for Multimodal Emotion Recognition with Cross-Modal Fusion
di: Deng, Zeyu, et al.
Pubblicazione: (2025)
di: Deng, Zeyu, et al.
Pubblicazione: (2025)
PodEval: A Multimodal Evaluation Framework for Podcast Audio Generation
di: Xiao, Yujia, et al.
Pubblicazione: (2025)
di: Xiao, Yujia, et al.
Pubblicazione: (2025)
FusionAudio-1.2M: Towards Fine-grained Audio Captioning with Multimodal Contextual Fusion
di: Chen, Shunian, et al.
Pubblicazione: (2025)
di: Chen, Shunian, et al.
Pubblicazione: (2025)
4,500 Seconds: Small Data Training Approaches for Deep UAV Audio Classification
di: Berg, Andrew P., et al.
Pubblicazione: (2025)
di: Berg, Andrew P., et al.
Pubblicazione: (2025)
NeuroSpex: Neuro-Guided Speaker Extraction with Cross-Modal Attention
di: De Silva, Dashanka, et al.
Pubblicazione: (2024)
di: De Silva, Dashanka, et al.
Pubblicazione: (2024)
COMET: Concept Space Dissection of the Modality Gap in Audio-Text Multimodal Contrastive Embeddings
di: Zhu, Yonggang, et al.
Pubblicazione: (2026)
di: Zhu, Yonggang, et al.
Pubblicazione: (2026)
Documenti analoghi
-
Egocentric Speaker Classification in Child-Adult Dyadic Interactions: From Sensing to Computational Modeling
di: Feng, Tiantian, et al.
Pubblicazione: (2024) -
PEFT-SER: On the Use of Parameter Efficient Transfer Learning Approaches For Speech Emotion Recognition Using Pre-trained Speech Models
di: Feng, Tiantian, et al.
Pubblicazione: (2023) -
Can Synthetic Audio From Generative Foundation Models Assist Audio Recognition and Speech Modeling?
di: Feng, Tiantian, et al.
Pubblicazione: (2024) -
TI-ASU: Toward Robust Automatic Speech Understanding through Text-to-speech Imputation Against Missing Speech Modality
di: Feng, Tiantian, et al.
Pubblicazione: (2024) -
VoxCog: Towards End-to-End Multilingual Cognitive Impairment Classification through Dialectal Knowledge
di: Feng, Tiantian, et al.
Pubblicazione: (2026)