:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Lin, Tsung-En, Lee, Kuan-Yi, Lee, Hung-Yi
Format:	Preprint
Veröffentlicht:	2025
Schlagworte:	Sound Machine Learning Audio and Speech Processing
Online-Zugang:	https://arxiv.org/abs/2510.12851
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

Towards audio language modeling -- an overview
von: Wu, Haibin, et al.
Veröffentlicht: (2024)

Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning
von: Kuan, Chun-Yi, et al.
Veröffentlicht: (2024)

Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples
von: Kuan, Chun-Yi, et al.
Veröffentlicht: (2025)

Codec-SUPERB @ SLT 2024: A lightweight benchmark for neural audio codec models
von: Wu, Haibin, et al.
Veröffentlicht: (2024)

ACAVCaps: Enabling large-scale training for fine-grained and diverse audio understanding
von: Niu, Yadong, et al.
Veröffentlicht: (2026)

EDTC: enhance depth of text comprehension in automated audio captioning
von: Tan, Liwen, et al.
Veröffentlicht: (2024)

Toward Fair Speech Technologies: A Comprehensive Survey of Bias and Fairness in Speech AI
von: Lin, Yi-Cheng, et al.
Veröffentlicht: (2026)

TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling
von: Tseng, Liang-Hsuan, et al.
Veröffentlicht: (2025)

DashengTokenizer: One layer is enough for unified audio understanding and generation
von: Dinkel, Heinrich, et al.
Veröffentlicht: (2026)

FxSearcher: gradient-free text-driven audio transformation
von: Ki, Hojoon, et al.
Veröffentlicht: (2025)

Synthetic training set generation using text-to-audio models for environmental sound classification
von: Ronchini, Francesca, et al.
Veröffentlicht: (2024)

EMO-Codec: An In-Depth Look at Emotion Preservation capacity of Legacy and Neural Codec Models With Subjective and Objective Evaluations
von: Ren, Wenze, et al.
Veröffentlicht: (2024)

Are audio DeepFake detection models polyglots?
von: Marek, Bartłomiej, et al.
Veröffentlicht: (2024)

Music De-limiter Networks via Sample-wise Gain Inversion
von: Jeon, Chang-Bin, et al.
Veröffentlicht: (2023)

Scaling up masked audio encoder learning for general audio classification
von: Dinkel, Heinrich, et al.
Veröffentlicht: (2024)

AQUA-Bench: Beyond Finding Answers to Knowing When There Are None in Audio Question Answering
von: Kuan, Chun-Yi, et al.
Veröffentlicht: (2026)

From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data
von: Kuan, Chun-Yi, et al.
Veröffentlicht: (2025)

Robustness assessment of large audio language models in multiple-choice evaluation
von: López, Fernando, et al.
Veröffentlicht: (2025)

Understanding Sounds, Missing the Questions: The Challenge of Object Hallucination in Large Audio-Language Models
von: Kuan, Chun-Yi, et al.
Veröffentlicht: (2024)

Speaker anonymization using neural audio codec language models
von: Panariello, Michele, et al.
Veröffentlicht: (2023)

Regularized autoregressive modeling and its application to audio signal reconstruction
von: Mokrý, Ondřej, et al.
Veröffentlicht: (2024)

The role of audio-visual integration in the time course of phonetic encoding in self-supervised speech models
von: Wang, Yi, et al.
Veröffentlicht: (2025)

Mitigating Subgroup Disparities in Multi-Label Speech Emotion Recognition: A Pseudo-Labeling and Unsupervised Learning Approach
von: Lin, Yi-Cheng, et al.
Veröffentlicht: (2025)

MI-Fuse: Label Fusion for Unsupervised Domain Adaptation with Closed-Source Large-Audio Language Model
von: Huang, Hsiao-Ying, et al.
Veröffentlicht: (2025)

LRS-VoxMM: A benchmark for in-the-wild audio-visual speech recognition
von: Kwak, Doyeop, et al.
Veröffentlicht: (2026)

Hybrid-Sep: Language-queried audio source separation via pre-trained Model Fusion and Adversarial Diffusion Training
von: Feng, Jianyuan, et al.
Veröffentlicht: (2025)

Speech-Copilot: Leveraging Large Language Models for Speech Processing via Task Decomposition, Modularization, and Program Generation
von: Kuan, Chun-Yi, et al.
Veröffentlicht: (2024)

Continual Test-time Adaptation for End-to-end Speech Recognition on Noisy Speech
von: Lin, Guan-Ting, et al.
Veröffentlicht: (2024)

ASPIRin: Action Space Projection for Interactivity-Optimized Reinforcement Learning in Full-Duplex Speech Language Models
von: Hsiao, Chi-Yuan, et al.
Veröffentlicht: (2026)

Do Prompts Really Prompt? Exploring the Prompt Understanding Capability of Whisper
von: Yang, Chih-Kai, et al.
Veröffentlicht: (2024)

SIRUP: A diffusion-based virtual upmixer of steering vectors for highly-directive spatialization with first-order ambisonics
von: Picard, Emilio, et al.
Veröffentlicht: (2026)

ConSep: a Noise- and Reverberation-Robust Speech Separation Framework by Magnitude Conditioning
von: Ho, Kuan-Hsun, et al.
Veröffentlicht: (2024)

What do neural networks listen to? Exploring the crucial bands in Speech Enhancement using Sinc-convolution
von: Ho, Kuan-Hsun, et al.
Veröffentlicht: (2024)

How Contrastive Decoding Enhances Large Audio Language Models?
von: Lin, Tzu-Quan, et al.
Veröffentlicht: (2026)

Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection
von: Lin, Hsi-Che, et al.
Veröffentlicht: (2024)

WavJEPA: Semantic learning unlocks robust audio foundation models for raw waveforms
von: Yuksel, Goksenin, et al.
Veröffentlicht: (2025)

ParaCLAP -- Towards a general language-audio model for computational paralinguistic tasks
von: Jing, Xin, et al.
Veröffentlicht: (2024)

Enhancing spatial hearing with cochlear implants: exploring the role of AI, multimodal interaction and perceptual training
von: Picinali, Lorenzo, et al.
Veröffentlicht: (2026)

ASTAR-NTU solution to AudioMOS Challenge 2025 Track1
von: Ritter-Gutierrez, Fabian, et al.
Veröffentlicht: (2025)

VIBE: Voice-Induced open-ended Bias Evaluation for Large Audio-Language Models via Real-World Speech
von: Lin, Yi-Cheng, et al.
Veröffentlicht: (2026)