:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Lee, Jiyoung, Park, Song, Chun, Sanghyuk, Chung, Soo-Whan
Format:	Preprint
Publié:	2025
Sujets:	Audio and Speech Processing Computer Vision and Pattern Recognition Multimedia
Accès en ligne:	https://arxiv.org/abs/2511.03423
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Read, Watch and Scream! Sound Generation from Text and Video
par: Jeong, Yujin, et autres
Publié: (2024)

Seeing is Believing: Emotion-Aware Audio-Visual Language Modeling for Expressive Speech Generation
par: Tan, Weiting, et autres
Publié: (2025)

Hear What Matters! Text-conditioned Selective Video-to-Audio Generation
par: Lee, Junwon, et autres
Publié: (2025)

A Unit-based System and Dataset for Expressive Direct Speech-to-Speech Translation
par: Min, Anna, et autres
Publié: (2025)

Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners
par: Xing, Yazhou, et autres
Publié: (2024)

MCDubber: Multimodal Context-Aware Expressive Video Dubbing
par: Zhao, Yuan, et autres
Publié: (2024)

MMS-LLaMA: Efficient LLM-based Audio-Visual Speech Recognition with Minimal Multimodal Speech Tokens
par: Yeo, Jeong Hun, et autres
Publié: (2025)

AV-Surf: Surface-Enhanced Geometry-Aware Novel-View Acoustic Synthesis
par: Baek, Hadam, et autres
Publié: (2025)

Interpretable Convolutional SyncNet
par: Park, Sungjoon, et autres
Publié: (2024)

AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation
par: Choi, Jeongsoo, et autres
Publié: (2023)

AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation
par: Wang, Le, et autres
Publié: (2025)

Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations
par: Yeo, Jeong Hun, et autres
Publié: (2025)

AISHELL6-whisper: A Chinese Mandarin Audio-visual Whisper Speech Dataset with Speech Recognition Baselines
par: Li, Cancan, et autres
Publié: (2025)

Towards Accurate Lip-to-Speech Synthesis in-the-Wild
par: Hegde, Sindhu, et autres
Publié: (2024)

DiffSSD: A Diffusion-Based Dataset For Speech Forensics
par: Bhagtani, Kratika, et autres
Publié: (2024)

Large Language Models are Strong Audio-Visual Speech Recognition Learners
par: Cappellazzo, Umberto, et autres
Publié: (2024)

IIANet: An Intra- and Inter-Modality Attention Network for Audio-Visual Speech Separation
par: Li, Kai, et autres
Publié: (2023)

AlignVSR: Audio-Visual Cross-Modal Alignment for Visual Speech Recognition
par: Liu, Zehua, et autres
Publié: (2024)

Audio-Visual Speech Enhancement In Complex Scenarios With Separation And Dereverberation Joint Modeling
par: Du, Jiarong, et autres
Publié: (2025)

Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs
par: Cappellazzo, Umberto, et autres
Publié: (2025)

Efficient Audiovisual Speech Processing via MUTUD: Multimodal Training and Unimodal Deployment
par: Hong, Joanna, et autres
Publié: (2025)

Mechanisms of Multimodal Synchronization: Insights from Decoder-Based Video-Text-to-Speech Synthesis
par: Gupta, Akshita, et autres
Publié: (2024)

AD-AVSR: Asymmetric Dual-stream Enhancement for Robust Audio-Visual Speech Recognition
par: Xue, Junxiao, et autres
Publié: (2025)

SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech Recognition
par: Wang, Hao, et autres
Publié: (2024)

RT-LA-VocE: Real-Time Low-SNR Audio-Visual Speech Enhancement
par: Chen, Honglie, et autres
Publié: (2024)

Aligning Sight and Sound: Advanced Sound Source Localization Through Audio-Visual Alignment
par: Senocak, Arda, et autres
Publié: (2024)

Seeing Soundscapes: Audio-Visual Generation and Separation from Soundscapes Using Audio-Visual Separator
par: Kang, Minjae, et autres
Publié: (2025)

It Hears, It Sees too: Multi-Modal LLM for Depression Detection By Integrating Visual Understanding into Audio Language Models
par: Zhao, Xiangyu, et autres
Publié: (2025)

It Takes Two: Real-time Co-Speech Two-person's Interaction Generation via Reactive Auto-regressive Diffusion Model
par: Shi, Mingyi, et autres
Publié: (2024)

Improving Lip-synchrony in Direct Audio-Visual Speech-to-Speech Translation
par: Goncalves, Lucas, et autres
Publié: (2024)

Video-to-Audio Generation with Hidden Alignment
par: Xu, Manjie, et autres
Publié: (2024)

SNIFR : Boosting Fine-Grained Child Harmful Content Detection Through Audio-Visual Alignment with Cascaded Cross-Transformer
par: Phukan, Orchid Chetia, et autres
Publié: (2025)

PEAVS: Perceptual Evaluation of Audio-Visual Synchrony Grounded in Viewers' Opinion Scores
par: Goncalves, Lucas, et autres
Publié: (2024)

Guided Masked Self-Distillation Modeling for Distributed Multimedia Sensor Event Analysis
par: Yasuda, Masahiro, et autres
Publié: (2024)

Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio
par: Yeo, Jeong Hun, et autres
Publié: (2025)

Multimodal Music Generation with Explicit Bridges and Retrieval Augmentation
par: Wang, Baisen, et autres
Publié: (2024)

Video-Guided Foley Sound Generation with Multimodal Controls
par: Chen, Ziyang, et autres
Publié: (2024)

Controllable Dance Generation with Style-Guided Motion Diffusion
par: Wang, Hongsong, et autres
Publié: (2024)

EgoSonics: Generating Synchronized Audio for Silent Egocentric Videos
par: Rai, Aashish, et autres
Publié: (2024)

What's Making That Sound Right Now? Video-centric Audio-Visual Localization
par: Choi, Hahyeon, et autres
Publié: (2025)