:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Lee, Hyeongkeun, Choi, Jongmin, Nam, KiHyun, Chung, Joon Son
Format:	Preprint
Publié:	2026
Sujets:	Sound Artificial Intelligence
Accès en ligne:	https://arxiv.org/abs/2601.04658
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Diffusion-Link: Diffusion Probabilistic Model for Bridging the Audio-Text Modality Gap
par: Nam, KiHyun, et autres
Publié: (2025)

LAVCap: LLM-based Audio-Visual Captioning using Optimal Transport
par: Rho, Kyeongha, et autres
Publié: (2025)

SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker Understanding and Verification Reasoning
par: Nam, KiHyun, et autres
Publié: (2026)

Disentangled Representation Learning for Environment-agnostic Speaker Recognition
par: Nam, KiHyun, et autres
Publié: (2024)

MoLT: Mixture of Layer-Wise Tokens for Efficient Audio-Visual Learning
par: Rho, Kyeongha, et autres
Publié: (2025)

Audio Mamba: Bidirectional State Space Model for Audio Representation Learning
par: Erol, Mehmet Hamza, et autres
Publié: (2024)

ElasticAST: An Audio Spectrogram Transformer for All Length and Resolutions
par: Feng, Jiu, et autres
Publié: (2024)

Accelerating Codec-based Speech Synthesis with Multi-Token Prediction and Speculative Decoding
par: Nguyen, Tan Dat, et autres
Publié: (2024)

Model-Guided Dual-Role Alignment for High-Fidelity Open-Domain Video-to-Audio Generation
par: Zhang, Kang, et autres
Publié: (2025)

Plug-and-Steer: Decoupling Separation and Selection in Audio-Visual Target Speaker Extraction
par: Kwak, Doyeop, et autres
Publié: (2026)

Cinematic Audio Source Separation Using Visual Cues
par: Zhang, Kang, et autres
Publié: (2026)

EquiAV: Leveraging Equivariance for Audio-Visual Contrastive Learning
par: Kim, Jongsuk, et autres
Publié: (2024)

KAD: No More FAD! An Effective and Efficient Evaluation Metric for Audio Generation
par: Chung, Yoonjin, et autres
Publié: (2025)

Lightweight Audio Segmentation for Long-form Speech Translation
par: Lee, Jaesong, et autres
Publié: (2024)

Accelerating Diffusion-based Text-to-Speech Model Training with Dual Modality Alignment
par: Choi, Jeongsoo, et autres
Publié: (2025)

EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for Automated Audio Captioning
par: Kim, Jaeyeon, et autres
Publié: (2024)

FlowAVSE: Efficient Audio-Visual Speech Enhancement with Conditional Flow Matching
par: Jung, Chaeyoung, et autres
Publié: (2024)

Performance Improvement of Language-Queried Audio Source Separation Based on Caption Augmentation From Large Language Models for DCASE Challenge 2024 Task 9
par: Lee, Do Hyun, et autres
Publié: (2024)

Enhancing Retrieval-Augmented Audio Captioning with Generation-Assisted Multimodal Querying and Progressive Learning
par: Changin, Choi, et autres
Publié: (2024)

AudioCapBench: Quick Evaluation on Audio Captioning across Sound, Music, and Speech
par: Qiu, Jielin, et autres
Publié: (2026)

LAV: Audio-Driven Dynamic Visual Generation with Neural Compression and StyleGAN2
par: Jung, Jongmin, et autres
Publié: (2025)

CORD: Bridging the Audio-Text Reasoning Gap via Weighted On-policy Cross-modal Distillation
par: Hu, Jing, et autres
Publié: (2026)

Let There Be Sound: Reconstructing High Quality Speech from Silent Videos
par: Kim, Ji-Hoon, et autres
Publié: (2023)

CAF-Score: Calibrating CLAP with LALMs for Reference-free Audio Captioning Evaluation
par: Lee, Insung, et autres
Publié: (2026)

Expanding on EnCLAP with Auxiliary Retrieval Model for Automated Audio Captioning
par: Kim, Jaeyeon, et autres
Publié: (2024)

LRS-VoxMM: A benchmark for in-the-wild audio-visual speech recognition
par: Kwak, Doyeop, et autres
Publié: (2026)

Towards Generating Diverse Audio Captions via Adversarial Training
par: Mei, Xinhao, et autres
Publié: (2022)

FusionAudio-1.2M: Towards Fine-grained Audio Captioning with Multimodal Contextual Fusion
par: Chen, Shunian, et autres
Publié: (2025)

Cross-Modal Retrieval with Cauchy-Schwarz Divergence
par: Zhang, Jiahao, et autres
Publié: (2025)

SEED: Speaker Embedding Enhancement Diffusion Model
par: Nam, KiHyun, et autres
Publié: (2025)

From Faces to Voices: Learning Hierarchical Representations for High-quality Video-to-Speech
par: Kim, Ji-Hoon, et autres
Publié: (2025)

PIAST: A Multimodal Piano Dataset with Audio, Symbolic and Text
par: Bang, Hayeon, et autres
Publié: (2024)

Dub-S2ST: Textless Speech-to-Speech Translation for Seamless Dubbing
par: Choi, Jeongsoo, et autres
Publié: (2025)

RECAP: Retrieval-Augmented Audio Captioning
par: Ghosh, Sreyan, et autres
Publié: (2023)

EnCLAP++: Analyzing the EnCLAP Framework for Optimizing Automated Audio Captioning Performance
par: Kim, Jaeyeon, et autres
Publié: (2024)

Domain Adaptation Method and Modality Gap Impact in Audio-Text Models for Prototypical Sound Classification
par: Acevedo, Emiliano, et autres
Publié: (2025)

Audio-Guided Dynamic Modality Fusion with Stereo-Aware Attention for Audio-Visual Navigation
par: Li, Jia, et autres
Publié: (2025)

Whisfusion: Parallel ASR Decoding via a Diffusion Transformer
par: Kwon, Taeyoun, et autres
Publié: (2025)

MathReader : Text-to-Speech for Mathematical Documents
par: Hyeon, Sieun, et autres
Publié: (2025)

From Coarse to Fine: Efficient Training for Audio Spectrogram Transformers
par: Feng, Jiu, et autres
Publié: (2024)