Gespeichert in:
| Hauptverfasser: | Jeon, Sungho, Yeh, Ching-Feng, Inan, Hakan, Hsu, Wei-Ning, Rungta, Rashi, Mehdad, Yashar, Bikel, Daniel |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2023
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2311.02772 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Fx-Encoder++: Extracting Instrument-Wise Audio Effects Representations from Mixtures
von: Yeh, Yen-Tung, et al.
Veröffentlicht: (2025)
von: Yeh, Yen-Tung, et al.
Veröffentlicht: (2025)
The Interspeech 2026 Audio Encoder Capability Challenge for Large Audio Language Models
von: Dinkel, Heinrich, et al.
Veröffentlicht: (2026)
von: Dinkel, Heinrich, et al.
Veröffentlicht: (2026)
Representation-Regularized Convolutional Audio Transformer for Audio Understanding
von: Han, Bing, et al.
Veröffentlicht: (2026)
von: Han, Bing, et al.
Veröffentlicht: (2026)
Enhancing Speech Large Language Models with Prompt-Aware Mixture of Audio Encoders
von: Shan, Weiqiao, et al.
Veröffentlicht: (2025)
von: Shan, Weiqiao, et al.
Veröffentlicht: (2025)
The ICME 2025 Audio Encoder Capability Challenge
von: Zhang, Junbo, et al.
Veröffentlicht: (2025)
von: Zhang, Junbo, et al.
Veröffentlicht: (2025)
SynthCloner: Synthesizer-style Audio Transfer via Factorized Codec with ADSR Envelope Control
von: Liu, Jeng-Yue, et al.
Veröffentlicht: (2025)
von: Liu, Jeng-Yue, et al.
Veröffentlicht: (2025)
Multi-Level Attention Aggregation for Language-Agnostic Speaker Replication
von: Jeon, Yejin, et al.
Veröffentlicht: (2024)
von: Jeon, Yejin, et al.
Veröffentlicht: (2024)
Efficient Audio Captioning with Encoder-Level Knowledge Distillation
von: Xu, Xuenan, et al.
Veröffentlicht: (2024)
von: Xu, Xuenan, et al.
Veröffentlicht: (2024)
The CMU-AIST submission for the ICME 2025 Audio Encoder Challenge
von: Bharadwaj, Shikhar, et al.
Veröffentlicht: (2026)
von: Bharadwaj, Shikhar, et al.
Veröffentlicht: (2026)
SoloAudio: Target Sound Extraction with Language-oriented Audio Diffusion Transformer
von: Wang, Helin, et al.
Veröffentlicht: (2024)
von: Wang, Helin, et al.
Veröffentlicht: (2024)
Audiobox TTA-RAG: Improving Zero-Shot and Few-Shot Text-To-Audio with Retrieval-Augmented Generation
von: Yang, Mu, et al.
Veröffentlicht: (2024)
von: Yang, Mu, et al.
Veröffentlicht: (2024)
X-ARES: A Comprehensive Framework for Assessing Audio Encoder Performance
von: Zhang, Junbo, et al.
Veröffentlicht: (2025)
von: Zhang, Junbo, et al.
Veröffentlicht: (2025)
An Empirical Analysis of Task-Induced Encoder Bias in Fréchet Audio Distance
von: Jeong, Wonwoo
Veröffentlicht: (2026)
von: Jeong, Wonwoo
Veröffentlicht: (2026)
The AudioMOS Challenge 2025
von: Huang, Wen-Chin, et al.
Veröffentlicht: (2025)
von: Huang, Wen-Chin, et al.
Veröffentlicht: (2025)
GRAFX: An Open-Source Library for Audio Processing Graphs in PyTorch
von: Lee, Sungho, et al.
Veröffentlicht: (2024)
von: Lee, Sungho, et al.
Veröffentlicht: (2024)
OpenBEATs: A Fully Open-Source General-Purpose Audio Encoder
von: Bharadwaj, Shikhar, et al.
Veröffentlicht: (2025)
von: Bharadwaj, Shikhar, et al.
Veröffentlicht: (2025)
Streaming Audio Transformers for Online Audio Tagging
von: Dinkel, Heinrich, et al.
Veröffentlicht: (2023)
von: Dinkel, Heinrich, et al.
Veröffentlicht: (2023)
PyNeuralFx: A Python Package for Neural Audio Effect Modeling
von: Yeh, Yen-Tung, et al.
Veröffentlicht: (2024)
von: Yeh, Yen-Tung, et al.
Veröffentlicht: (2024)
Genuine-Focused Learning using Mask AutoEncoder for Generalized Fake Audio Detection
von: Wang, Xiaopeng, et al.
Veröffentlicht: (2024)
von: Wang, Xiaopeng, et al.
Veröffentlicht: (2024)
Hyper Recurrent Neural Network: Condition Mechanisms for Black-box Audio Effect Modeling
von: Yeh, Yen-Tung, et al.
Veröffentlicht: (2024)
von: Yeh, Yen-Tung, et al.
Veröffentlicht: (2024)
Audios Don't Lie: Multi-Frequency Channel Attention Mechanism for Audio Deepfake Detection
von: Feng, Yangguang
Veröffentlicht: (2024)
von: Feng, Yangguang
Veröffentlicht: (2024)
Attention-Based Audio Embeddings for Query-by-Example
von: Singh, Anup, et al.
Veröffentlicht: (2022)
von: Singh, Anup, et al.
Veröffentlicht: (2022)
MT2KD: Towards A General-Purpose Encoder for Speech, Speaker, and Audio Events
von: Yang, Xiaoyu, et al.
Veröffentlicht: (2024)
von: Yang, Xiaoyu, et al.
Veröffentlicht: (2024)
Audio-Based Linguistic Feature Extraction for Enhancing Multi-lingual and Low-Resource Text-to-Speech
von: Kim, Youngjae, et al.
Veröffentlicht: (2024)
von: Kim, Youngjae, et al.
Veröffentlicht: (2024)
Improving Audio Question Answering with Variational Inference
von: Chen, Haolin
Veröffentlicht: (2026)
von: Chen, Haolin
Veröffentlicht: (2026)
Speech-Aware Neural Diarization with Encoder-Decoder Attractor Guided by Attention Constraints
von: Lee, PeiYing, et al.
Veröffentlicht: (2024)
von: Lee, PeiYing, et al.
Veröffentlicht: (2024)
EzAudio: Enhancing Text-to-Audio Generation with Efficient Diffusion Transformer
von: Hai, Jiarui, et al.
Veröffentlicht: (2024)
von: Hai, Jiarui, et al.
Veröffentlicht: (2024)
Pengi: An Audio Language Model for Audio Tasks
von: Deshmukh, Soham, et al.
Veröffentlicht: (2023)
von: Deshmukh, Soham, et al.
Veröffentlicht: (2023)
CatchPhrase: EXPrompt-Guided Encoder Adaptation for Audio-to-Image Generation
von: Oh, Hyunwoo, et al.
Veröffentlicht: (2025)
von: Oh, Hyunwoo, et al.
Veröffentlicht: (2025)
FAST: Fast Audio Spectrogram Transformer
von: Naman, Anugunj, et al.
Veröffentlicht: (2025)
von: Naman, Anugunj, et al.
Veröffentlicht: (2025)
Rethinking Speech Representation Aggregation in Speech Enhancement: A Phonetic Mutual Information Perspective
von: Han, Seungu, et al.
Veröffentlicht: (2026)
von: Han, Seungu, et al.
Veröffentlicht: (2026)
Do Foundational Audio Encoders Understand Music Structure?
von: Toyama, Keisuke, et al.
Veröffentlicht: (2025)
von: Toyama, Keisuke, et al.
Veröffentlicht: (2025)
Post-Training Quantization for Audio Diffusion Transformers
von: Khandelwal, Tanmay, et al.
Veröffentlicht: (2025)
von: Khandelwal, Tanmay, et al.
Veröffentlicht: (2025)
PAM: Prompting Audio-Language Models for Audio Quality Assessment
von: Deshmukh, Soham, et al.
Veröffentlicht: (2024)
von: Deshmukh, Soham, et al.
Veröffentlicht: (2024)
Temporal Attention Pooling for Frequency Dynamic Convolution in Sound Event Detection
von: Nam, Hyeonuk, et al.
Veröffentlicht: (2025)
von: Nam, Hyeonuk, et al.
Veröffentlicht: (2025)
Language-based Audio Retrieval with Co-Attention Networks
von: Sun, Haoran, et al.
Veröffentlicht: (2024)
von: Sun, Haoran, et al.
Veröffentlicht: (2024)
Continuous Audio Language Models
von: Rouard, Simon, et al.
Veröffentlicht: (2025)
von: Rouard, Simon, et al.
Veröffentlicht: (2025)
Attention-weighted Centered Kernel Alignment for Knowledge Distillation in Large Audio-Language Models Applied to Speech Emotion Recognition
von: Yang, Qingran, et al.
Veröffentlicht: (2026)
von: Yang, Qingran, et al.
Veröffentlicht: (2026)
Audio-Visual Target Speaker Extraction with Reverse Selective Auditory Attention
von: Tao, Ruijie, et al.
Veröffentlicht: (2024)
von: Tao, Ruijie, et al.
Veröffentlicht: (2024)
Hybrid Attention-based Encoder-decoder Model for Efficient Language Model Adaptation
von: Ling, Shaoshi, et al.
Veröffentlicht: (2023)
von: Ling, Shaoshi, et al.
Veröffentlicht: (2023)
Ähnliche Einträge
-
Fx-Encoder++: Extracting Instrument-Wise Audio Effects Representations from Mixtures
von: Yeh, Yen-Tung, et al.
Veröffentlicht: (2025) -
The Interspeech 2026 Audio Encoder Capability Challenge for Large Audio Language Models
von: Dinkel, Heinrich, et al.
Veröffentlicht: (2026) -
Representation-Regularized Convolutional Audio Transformer for Audio Understanding
von: Han, Bing, et al.
Veröffentlicht: (2026) -
Enhancing Speech Large Language Models with Prompt-Aware Mixture of Audio Encoders
von: Shan, Weiqiao, et al.
Veröffentlicht: (2025) -
The ICME 2025 Audio Encoder Capability Challenge
von: Zhang, Junbo, et al.
Veröffentlicht: (2025)