:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Jeon, Sungho, Yeh, Ching-Feng, Inan, Hakan, Hsu, Wei-Ning, Rungta, Rashi, Mehdad, Yashar, Bikel, Daniel
Format:	Preprint
Veröffentlicht:	2023
Schlagworte:	Sound Computation and Language Audio and Speech Processing
Online-Zugang:	https://arxiv.org/abs/2311.02772
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

Fx-Encoder++: Extracting Instrument-Wise Audio Effects Representations from Mixtures
von: Yeh, Yen-Tung, et al.
Veröffentlicht: (2025)

The Interspeech 2026 Audio Encoder Capability Challenge for Large Audio Language Models
von: Dinkel, Heinrich, et al.
Veröffentlicht: (2026)

Representation-Regularized Convolutional Audio Transformer for Audio Understanding
von: Han, Bing, et al.
Veröffentlicht: (2026)

Enhancing Speech Large Language Models with Prompt-Aware Mixture of Audio Encoders
von: Shan, Weiqiao, et al.
Veröffentlicht: (2025)

The ICME 2025 Audio Encoder Capability Challenge
von: Zhang, Junbo, et al.
Veröffentlicht: (2025)

SynthCloner: Synthesizer-style Audio Transfer via Factorized Codec with ADSR Envelope Control
von: Liu, Jeng-Yue, et al.
Veröffentlicht: (2025)

Multi-Level Attention Aggregation for Language-Agnostic Speaker Replication
von: Jeon, Yejin, et al.
Veröffentlicht: (2024)

Efficient Audio Captioning with Encoder-Level Knowledge Distillation
von: Xu, Xuenan, et al.
Veröffentlicht: (2024)

The CMU-AIST submission for the ICME 2025 Audio Encoder Challenge
von: Bharadwaj, Shikhar, et al.
Veröffentlicht: (2026)

SoloAudio: Target Sound Extraction with Language-oriented Audio Diffusion Transformer
von: Wang, Helin, et al.
Veröffentlicht: (2024)

Audiobox TTA-RAG: Improving Zero-Shot and Few-Shot Text-To-Audio with Retrieval-Augmented Generation
von: Yang, Mu, et al.
Veröffentlicht: (2024)

X-ARES: A Comprehensive Framework for Assessing Audio Encoder Performance
von: Zhang, Junbo, et al.
Veröffentlicht: (2025)

An Empirical Analysis of Task-Induced Encoder Bias in Fréchet Audio Distance
von: Jeong, Wonwoo
Veröffentlicht: (2026)

The AudioMOS Challenge 2025
von: Huang, Wen-Chin, et al.
Veröffentlicht: (2025)

GRAFX: An Open-Source Library for Audio Processing Graphs in PyTorch
von: Lee, Sungho, et al.
Veröffentlicht: (2024)

OpenBEATs: A Fully Open-Source General-Purpose Audio Encoder
von: Bharadwaj, Shikhar, et al.
Veröffentlicht: (2025)

Streaming Audio Transformers for Online Audio Tagging
von: Dinkel, Heinrich, et al.
Veröffentlicht: (2023)

PyNeuralFx: A Python Package for Neural Audio Effect Modeling
von: Yeh, Yen-Tung, et al.
Veröffentlicht: (2024)

Genuine-Focused Learning using Mask AutoEncoder for Generalized Fake Audio Detection
von: Wang, Xiaopeng, et al.
Veröffentlicht: (2024)

Hyper Recurrent Neural Network: Condition Mechanisms for Black-box Audio Effect Modeling
von: Yeh, Yen-Tung, et al.
Veröffentlicht: (2024)

Audios Don't Lie: Multi-Frequency Channel Attention Mechanism for Audio Deepfake Detection
von: Feng, Yangguang
Veröffentlicht: (2024)

Attention-Based Audio Embeddings for Query-by-Example
von: Singh, Anup, et al.
Veröffentlicht: (2022)

MT2KD: Towards A General-Purpose Encoder for Speech, Speaker, and Audio Events
von: Yang, Xiaoyu, et al.
Veröffentlicht: (2024)

Audio-Based Linguistic Feature Extraction for Enhancing Multi-lingual and Low-Resource Text-to-Speech
von: Kim, Youngjae, et al.
Veröffentlicht: (2024)

Improving Audio Question Answering with Variational Inference
von: Chen, Haolin
Veröffentlicht: (2026)

Speech-Aware Neural Diarization with Encoder-Decoder Attractor Guided by Attention Constraints
von: Lee, PeiYing, et al.
Veröffentlicht: (2024)

EzAudio: Enhancing Text-to-Audio Generation with Efficient Diffusion Transformer
von: Hai, Jiarui, et al.
Veröffentlicht: (2024)

Pengi: An Audio Language Model for Audio Tasks
von: Deshmukh, Soham, et al.
Veröffentlicht: (2023)

CatchPhrase: EXPrompt-Guided Encoder Adaptation for Audio-to-Image Generation
von: Oh, Hyunwoo, et al.
Veröffentlicht: (2025)

FAST: Fast Audio Spectrogram Transformer
von: Naman, Anugunj, et al.
Veröffentlicht: (2025)

Rethinking Speech Representation Aggregation in Speech Enhancement: A Phonetic Mutual Information Perspective
von: Han, Seungu, et al.
Veröffentlicht: (2026)

Do Foundational Audio Encoders Understand Music Structure?
von: Toyama, Keisuke, et al.
Veröffentlicht: (2025)

Post-Training Quantization for Audio Diffusion Transformers
von: Khandelwal, Tanmay, et al.
Veröffentlicht: (2025)

PAM: Prompting Audio-Language Models for Audio Quality Assessment
von: Deshmukh, Soham, et al.
Veröffentlicht: (2024)

Temporal Attention Pooling for Frequency Dynamic Convolution in Sound Event Detection
von: Nam, Hyeonuk, et al.
Veröffentlicht: (2025)

Language-based Audio Retrieval with Co-Attention Networks
von: Sun, Haoran, et al.
Veröffentlicht: (2024)

Continuous Audio Language Models
von: Rouard, Simon, et al.
Veröffentlicht: (2025)

Attention-weighted Centered Kernel Alignment for Knowledge Distillation in Large Audio-Language Models Applied to Speech Emotion Recognition
von: Yang, Qingran, et al.
Veröffentlicht: (2026)

Audio-Visual Target Speaker Extraction with Reverse Selective Auditory Attention
von: Tao, Ruijie, et al.
Veröffentlicht: (2024)

Hybrid Attention-based Encoder-decoder Model for Efficient Language Model Adaptation
von: Ling, Shaoshi, et al.
Veröffentlicht: (2023)