Enregistré dans:
| Auteurs principaux: | Lee, Hyeongkeun, Choi, Jongmin, Nam, KiHyun, Chung, Joon Son |
|---|---|
| Format: | Preprint |
| Publié: |
2026
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2601.04658 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Diffusion-Link: Diffusion Probabilistic Model for Bridging the Audio-Text Modality Gap
par: Nam, KiHyun, et autres
Publié: (2025)
par: Nam, KiHyun, et autres
Publié: (2025)
LAVCap: LLM-based Audio-Visual Captioning using Optimal Transport
par: Rho, Kyeongha, et autres
Publié: (2025)
par: Rho, Kyeongha, et autres
Publié: (2025)
SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker Understanding and Verification Reasoning
par: Nam, KiHyun, et autres
Publié: (2026)
par: Nam, KiHyun, et autres
Publié: (2026)
Disentangled Representation Learning for Environment-agnostic Speaker Recognition
par: Nam, KiHyun, et autres
Publié: (2024)
par: Nam, KiHyun, et autres
Publié: (2024)
MoLT: Mixture of Layer-Wise Tokens for Efficient Audio-Visual Learning
par: Rho, Kyeongha, et autres
Publié: (2025)
par: Rho, Kyeongha, et autres
Publié: (2025)
Audio Mamba: Bidirectional State Space Model for Audio Representation Learning
par: Erol, Mehmet Hamza, et autres
Publié: (2024)
par: Erol, Mehmet Hamza, et autres
Publié: (2024)
ElasticAST: An Audio Spectrogram Transformer for All Length and Resolutions
par: Feng, Jiu, et autres
Publié: (2024)
par: Feng, Jiu, et autres
Publié: (2024)
Accelerating Codec-based Speech Synthesis with Multi-Token Prediction and Speculative Decoding
par: Nguyen, Tan Dat, et autres
Publié: (2024)
par: Nguyen, Tan Dat, et autres
Publié: (2024)
Model-Guided Dual-Role Alignment for High-Fidelity Open-Domain Video-to-Audio Generation
par: Zhang, Kang, et autres
Publié: (2025)
par: Zhang, Kang, et autres
Publié: (2025)
Plug-and-Steer: Decoupling Separation and Selection in Audio-Visual Target Speaker Extraction
par: Kwak, Doyeop, et autres
Publié: (2026)
par: Kwak, Doyeop, et autres
Publié: (2026)
Cinematic Audio Source Separation Using Visual Cues
par: Zhang, Kang, et autres
Publié: (2026)
par: Zhang, Kang, et autres
Publié: (2026)
EquiAV: Leveraging Equivariance for Audio-Visual Contrastive Learning
par: Kim, Jongsuk, et autres
Publié: (2024)
par: Kim, Jongsuk, et autres
Publié: (2024)
KAD: No More FAD! An Effective and Efficient Evaluation Metric for Audio Generation
par: Chung, Yoonjin, et autres
Publié: (2025)
par: Chung, Yoonjin, et autres
Publié: (2025)
Lightweight Audio Segmentation for Long-form Speech Translation
par: Lee, Jaesong, et autres
Publié: (2024)
par: Lee, Jaesong, et autres
Publié: (2024)
Accelerating Diffusion-based Text-to-Speech Model Training with Dual Modality Alignment
par: Choi, Jeongsoo, et autres
Publié: (2025)
par: Choi, Jeongsoo, et autres
Publié: (2025)
EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for Automated Audio Captioning
par: Kim, Jaeyeon, et autres
Publié: (2024)
par: Kim, Jaeyeon, et autres
Publié: (2024)
FlowAVSE: Efficient Audio-Visual Speech Enhancement with Conditional Flow Matching
par: Jung, Chaeyoung, et autres
Publié: (2024)
par: Jung, Chaeyoung, et autres
Publié: (2024)
Performance Improvement of Language-Queried Audio Source Separation Based on Caption Augmentation From Large Language Models for DCASE Challenge 2024 Task 9
par: Lee, Do Hyun, et autres
Publié: (2024)
par: Lee, Do Hyun, et autres
Publié: (2024)
Enhancing Retrieval-Augmented Audio Captioning with Generation-Assisted Multimodal Querying and Progressive Learning
par: Changin, Choi, et autres
Publié: (2024)
par: Changin, Choi, et autres
Publié: (2024)
AudioCapBench: Quick Evaluation on Audio Captioning across Sound, Music, and Speech
par: Qiu, Jielin, et autres
Publié: (2026)
par: Qiu, Jielin, et autres
Publié: (2026)
LAV: Audio-Driven Dynamic Visual Generation with Neural Compression and StyleGAN2
par: Jung, Jongmin, et autres
Publié: (2025)
par: Jung, Jongmin, et autres
Publié: (2025)
CORD: Bridging the Audio-Text Reasoning Gap via Weighted On-policy Cross-modal Distillation
par: Hu, Jing, et autres
Publié: (2026)
par: Hu, Jing, et autres
Publié: (2026)
Let There Be Sound: Reconstructing High Quality Speech from Silent Videos
par: Kim, Ji-Hoon, et autres
Publié: (2023)
par: Kim, Ji-Hoon, et autres
Publié: (2023)
CAF-Score: Calibrating CLAP with LALMs for Reference-free Audio Captioning Evaluation
par: Lee, Insung, et autres
Publié: (2026)
par: Lee, Insung, et autres
Publié: (2026)
Expanding on EnCLAP with Auxiliary Retrieval Model for Automated Audio Captioning
par: Kim, Jaeyeon, et autres
Publié: (2024)
par: Kim, Jaeyeon, et autres
Publié: (2024)
LRS-VoxMM: A benchmark for in-the-wild audio-visual speech recognition
par: Kwak, Doyeop, et autres
Publié: (2026)
par: Kwak, Doyeop, et autres
Publié: (2026)
Towards Generating Diverse Audio Captions via Adversarial Training
par: Mei, Xinhao, et autres
Publié: (2022)
par: Mei, Xinhao, et autres
Publié: (2022)
FusionAudio-1.2M: Towards Fine-grained Audio Captioning with Multimodal Contextual Fusion
par: Chen, Shunian, et autres
Publié: (2025)
par: Chen, Shunian, et autres
Publié: (2025)
Cross-Modal Retrieval with Cauchy-Schwarz Divergence
par: Zhang, Jiahao, et autres
Publié: (2025)
par: Zhang, Jiahao, et autres
Publié: (2025)
SEED: Speaker Embedding Enhancement Diffusion Model
par: Nam, KiHyun, et autres
Publié: (2025)
par: Nam, KiHyun, et autres
Publié: (2025)
From Faces to Voices: Learning Hierarchical Representations for High-quality Video-to-Speech
par: Kim, Ji-Hoon, et autres
Publié: (2025)
par: Kim, Ji-Hoon, et autres
Publié: (2025)
PIAST: A Multimodal Piano Dataset with Audio, Symbolic and Text
par: Bang, Hayeon, et autres
Publié: (2024)
par: Bang, Hayeon, et autres
Publié: (2024)
Dub-S2ST: Textless Speech-to-Speech Translation for Seamless Dubbing
par: Choi, Jeongsoo, et autres
Publié: (2025)
par: Choi, Jeongsoo, et autres
Publié: (2025)
RECAP: Retrieval-Augmented Audio Captioning
par: Ghosh, Sreyan, et autres
Publié: (2023)
par: Ghosh, Sreyan, et autres
Publié: (2023)
EnCLAP++: Analyzing the EnCLAP Framework for Optimizing Automated Audio Captioning Performance
par: Kim, Jaeyeon, et autres
Publié: (2024)
par: Kim, Jaeyeon, et autres
Publié: (2024)
Domain Adaptation Method and Modality Gap Impact in Audio-Text Models for Prototypical Sound Classification
par: Acevedo, Emiliano, et autres
Publié: (2025)
par: Acevedo, Emiliano, et autres
Publié: (2025)
Audio-Guided Dynamic Modality Fusion with Stereo-Aware Attention for Audio-Visual Navigation
par: Li, Jia, et autres
Publié: (2025)
par: Li, Jia, et autres
Publié: (2025)
Whisfusion: Parallel ASR Decoding via a Diffusion Transformer
par: Kwon, Taeyoun, et autres
Publié: (2025)
par: Kwon, Taeyoun, et autres
Publié: (2025)
MathReader : Text-to-Speech for Mathematical Documents
par: Hyeon, Sieun, et autres
Publié: (2025)
par: Hyeon, Sieun, et autres
Publié: (2025)
From Coarse to Fine: Efficient Training for Audio Spectrogram Transformers
par: Feng, Jiu, et autres
Publié: (2024)
par: Feng, Jiu, et autres
Publié: (2024)
Documents similaires
-
Diffusion-Link: Diffusion Probabilistic Model for Bridging the Audio-Text Modality Gap
par: Nam, KiHyun, et autres
Publié: (2025) -
LAVCap: LLM-based Audio-Visual Captioning using Optimal Transport
par: Rho, Kyeongha, et autres
Publié: (2025) -
SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker Understanding and Verification Reasoning
par: Nam, KiHyun, et autres
Publié: (2026) -
Disentangled Representation Learning for Environment-agnostic Speaker Recognition
par: Nam, KiHyun, et autres
Publié: (2024) -
MoLT: Mixture of Layer-Wise Tokens for Efficient Audio-Visual Learning
par: Rho, Kyeongha, et autres
Publié: (2025)