Enregistré dans:
| Auteurs principaux: | Lee, Jiyoung, Park, Song, Chun, Sanghyuk, Chung, Soo-Whan |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2511.03423 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Read, Watch and Scream! Sound Generation from Text and Video
par: Jeong, Yujin, et autres
Publié: (2024)
par: Jeong, Yujin, et autres
Publié: (2024)
Seeing is Believing: Emotion-Aware Audio-Visual Language Modeling for Expressive Speech Generation
par: Tan, Weiting, et autres
Publié: (2025)
par: Tan, Weiting, et autres
Publié: (2025)
Hear What Matters! Text-conditioned Selective Video-to-Audio Generation
par: Lee, Junwon, et autres
Publié: (2025)
par: Lee, Junwon, et autres
Publié: (2025)
A Unit-based System and Dataset for Expressive Direct Speech-to-Speech Translation
par: Min, Anna, et autres
Publié: (2025)
par: Min, Anna, et autres
Publié: (2025)
Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners
par: Xing, Yazhou, et autres
Publié: (2024)
par: Xing, Yazhou, et autres
Publié: (2024)
MCDubber: Multimodal Context-Aware Expressive Video Dubbing
par: Zhao, Yuan, et autres
Publié: (2024)
par: Zhao, Yuan, et autres
Publié: (2024)
MMS-LLaMA: Efficient LLM-based Audio-Visual Speech Recognition with Minimal Multimodal Speech Tokens
par: Yeo, Jeong Hun, et autres
Publié: (2025)
par: Yeo, Jeong Hun, et autres
Publié: (2025)
AV-Surf: Surface-Enhanced Geometry-Aware Novel-View Acoustic Synthesis
par: Baek, Hadam, et autres
Publié: (2025)
par: Baek, Hadam, et autres
Publié: (2025)
Interpretable Convolutional SyncNet
par: Park, Sungjoon, et autres
Publié: (2024)
par: Park, Sungjoon, et autres
Publié: (2024)
AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation
par: Choi, Jeongsoo, et autres
Publié: (2023)
par: Choi, Jeongsoo, et autres
Publié: (2023)
AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation
par: Wang, Le, et autres
Publié: (2025)
par: Wang, Le, et autres
Publié: (2025)
Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations
par: Yeo, Jeong Hun, et autres
Publié: (2025)
par: Yeo, Jeong Hun, et autres
Publié: (2025)
AISHELL6-whisper: A Chinese Mandarin Audio-visual Whisper Speech Dataset with Speech Recognition Baselines
par: Li, Cancan, et autres
Publié: (2025)
par: Li, Cancan, et autres
Publié: (2025)
Towards Accurate Lip-to-Speech Synthesis in-the-Wild
par: Hegde, Sindhu, et autres
Publié: (2024)
par: Hegde, Sindhu, et autres
Publié: (2024)
DiffSSD: A Diffusion-Based Dataset For Speech Forensics
par: Bhagtani, Kratika, et autres
Publié: (2024)
par: Bhagtani, Kratika, et autres
Publié: (2024)
Large Language Models are Strong Audio-Visual Speech Recognition Learners
par: Cappellazzo, Umberto, et autres
Publié: (2024)
par: Cappellazzo, Umberto, et autres
Publié: (2024)
IIANet: An Intra- and Inter-Modality Attention Network for Audio-Visual Speech Separation
par: Li, Kai, et autres
Publié: (2023)
par: Li, Kai, et autres
Publié: (2023)
AlignVSR: Audio-Visual Cross-Modal Alignment for Visual Speech Recognition
par: Liu, Zehua, et autres
Publié: (2024)
par: Liu, Zehua, et autres
Publié: (2024)
Audio-Visual Speech Enhancement In Complex Scenarios With Separation And Dereverberation Joint Modeling
par: Du, Jiarong, et autres
Publié: (2025)
par: Du, Jiarong, et autres
Publié: (2025)
Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs
par: Cappellazzo, Umberto, et autres
Publié: (2025)
par: Cappellazzo, Umberto, et autres
Publié: (2025)
Efficient Audiovisual Speech Processing via MUTUD: Multimodal Training and Unimodal Deployment
par: Hong, Joanna, et autres
Publié: (2025)
par: Hong, Joanna, et autres
Publié: (2025)
Mechanisms of Multimodal Synchronization: Insights from Decoder-Based Video-Text-to-Speech Synthesis
par: Gupta, Akshita, et autres
Publié: (2024)
par: Gupta, Akshita, et autres
Publié: (2024)
AD-AVSR: Asymmetric Dual-stream Enhancement for Robust Audio-Visual Speech Recognition
par: Xue, Junxiao, et autres
Publié: (2025)
par: Xue, Junxiao, et autres
Publié: (2025)
SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech Recognition
par: Wang, Hao, et autres
Publié: (2024)
par: Wang, Hao, et autres
Publié: (2024)
RT-LA-VocE: Real-Time Low-SNR Audio-Visual Speech Enhancement
par: Chen, Honglie, et autres
Publié: (2024)
par: Chen, Honglie, et autres
Publié: (2024)
Aligning Sight and Sound: Advanced Sound Source Localization Through Audio-Visual Alignment
par: Senocak, Arda, et autres
Publié: (2024)
par: Senocak, Arda, et autres
Publié: (2024)
Seeing Soundscapes: Audio-Visual Generation and Separation from Soundscapes Using Audio-Visual Separator
par: Kang, Minjae, et autres
Publié: (2025)
par: Kang, Minjae, et autres
Publié: (2025)
It Hears, It Sees too: Multi-Modal LLM for Depression Detection By Integrating Visual Understanding into Audio Language Models
par: Zhao, Xiangyu, et autres
Publié: (2025)
par: Zhao, Xiangyu, et autres
Publié: (2025)
It Takes Two: Real-time Co-Speech Two-person's Interaction Generation via Reactive Auto-regressive Diffusion Model
par: Shi, Mingyi, et autres
Publié: (2024)
par: Shi, Mingyi, et autres
Publié: (2024)
Improving Lip-synchrony in Direct Audio-Visual Speech-to-Speech Translation
par: Goncalves, Lucas, et autres
Publié: (2024)
par: Goncalves, Lucas, et autres
Publié: (2024)
Video-to-Audio Generation with Hidden Alignment
par: Xu, Manjie, et autres
Publié: (2024)
par: Xu, Manjie, et autres
Publié: (2024)
SNIFR : Boosting Fine-Grained Child Harmful Content Detection Through Audio-Visual Alignment with Cascaded Cross-Transformer
par: Phukan, Orchid Chetia, et autres
Publié: (2025)
par: Phukan, Orchid Chetia, et autres
Publié: (2025)
PEAVS: Perceptual Evaluation of Audio-Visual Synchrony Grounded in Viewers' Opinion Scores
par: Goncalves, Lucas, et autres
Publié: (2024)
par: Goncalves, Lucas, et autres
Publié: (2024)
Guided Masked Self-Distillation Modeling for Distributed Multimedia Sensor Event Analysis
par: Yasuda, Masahiro, et autres
Publié: (2024)
par: Yasuda, Masahiro, et autres
Publié: (2024)
Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio
par: Yeo, Jeong Hun, et autres
Publié: (2025)
par: Yeo, Jeong Hun, et autres
Publié: (2025)
Multimodal Music Generation with Explicit Bridges and Retrieval Augmentation
par: Wang, Baisen, et autres
Publié: (2024)
par: Wang, Baisen, et autres
Publié: (2024)
Video-Guided Foley Sound Generation with Multimodal Controls
par: Chen, Ziyang, et autres
Publié: (2024)
par: Chen, Ziyang, et autres
Publié: (2024)
Controllable Dance Generation with Style-Guided Motion Diffusion
par: Wang, Hongsong, et autres
Publié: (2024)
par: Wang, Hongsong, et autres
Publié: (2024)
EgoSonics: Generating Synchronized Audio for Silent Egocentric Videos
par: Rai, Aashish, et autres
Publié: (2024)
par: Rai, Aashish, et autres
Publié: (2024)
What's Making That Sound Right Now? Video-centric Audio-Visual Localization
par: Choi, Hahyeon, et autres
Publié: (2025)
par: Choi, Hahyeon, et autres
Publié: (2025)
Documents similaires
-
Read, Watch and Scream! Sound Generation from Text and Video
par: Jeong, Yujin, et autres
Publié: (2024) -
Seeing is Believing: Emotion-Aware Audio-Visual Language Modeling for Expressive Speech Generation
par: Tan, Weiting, et autres
Publié: (2025) -
Hear What Matters! Text-conditioned Selective Video-to-Audio Generation
par: Lee, Junwon, et autres
Publié: (2025) -
A Unit-based System and Dataset for Expressive Direct Speech-to-Speech Translation
par: Min, Anna, et autres
Publié: (2025) -
Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners
par: Xing, Yazhou, et autres
Publié: (2024)