Salvato in:
| Autori principali: | Kouteili, Sam, Madhu, Hiren, Typaldos, George, Santolucito, Mark |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2508.05473 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Retrieval-Augmented Text-to-Audio Generation
di: Yuan, Yi, et al.
Pubblicazione: (2023)
di: Yuan, Yi, et al.
Pubblicazione: (2023)
Model-Guided Dual-Role Alignment for High-Fidelity Open-Domain Video-to-Audio Generation
di: Zhang, Kang, et al.
Pubblicazione: (2025)
di: Zhang, Kang, et al.
Pubblicazione: (2025)
Towards Generating Diverse Audio Captions via Adversarial Training
di: Mei, Xinhao, et al.
Pubblicazione: (2022)
di: Mei, Xinhao, et al.
Pubblicazione: (2022)
Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study
di: Yuan, Yi, et al.
Pubblicazione: (2023)
di: Yuan, Yi, et al.
Pubblicazione: (2023)
Integrating IP Broadcasting with Audio Tags: Workflow and Challenges
di: Burchett-Vass, Rhys, et al.
Pubblicazione: (2024)
di: Burchett-Vass, Rhys, et al.
Pubblicazione: (2024)
FreeAudio: Training-Free Timing Planning for Controllable Long-Form Text-to-Audio Generation
di: Jiang, Yuxuan, et al.
Pubblicazione: (2025)
di: Jiang, Yuxuan, et al.
Pubblicazione: (2025)
OmniCustom: Sync Audio-Video Customization Via Joint Audio-Video Generation Model
di: Li, Maomao, et al.
Pubblicazione: (2026)
di: Li, Maomao, et al.
Pubblicazione: (2026)
AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining
di: Liu, Haohe, et al.
Pubblicazione: (2023)
di: Liu, Haohe, et al.
Pubblicazione: (2023)
Listening and Seeing Again: Generative Error Correction for Audio-Visual Speech Recognition
di: Liu, Rui, et al.
Pubblicazione: (2025)
di: Liu, Rui, et al.
Pubblicazione: (2025)
AudioRole: An Audio Dataset for Character Role-Playing in Large Language Models
di: Li, Wenyu, et al.
Pubblicazione: (2025)
di: Li, Wenyu, et al.
Pubblicazione: (2025)
LPIPS-AttnWav2Lip: Generic Audio-Driven lip synchronization for Talking Head Generation in the Wild
di: Chen, Zhipeng, et al.
Pubblicazione: (2026)
di: Chen, Zhipeng, et al.
Pubblicazione: (2026)
Towards Assessing Data Replication in Music Generation with Music Similarity Metrics on Raw Audio
di: Batlle-Roca, Roser, et al.
Pubblicazione: (2024)
di: Batlle-Roca, Roser, et al.
Pubblicazione: (2024)
SemantiCodec: An Ultra Low Bitrate Semantic Audio Codec for General Sound
di: Liu, Haohe, et al.
Pubblicazione: (2024)
di: Liu, Haohe, et al.
Pubblicazione: (2024)
Neural Style Transfer for Audio Spectograms
di: Verma, Prateek, et al.
Pubblicazione: (2018)
di: Verma, Prateek, et al.
Pubblicazione: (2018)
Unveiling Visual Biases in Audio-Visual Localization Benchmarks
di: Chen, Liangyu, et al.
Pubblicazione: (2024)
di: Chen, Liangyu, et al.
Pubblicazione: (2024)
GACA-DiT: Diffusion-based Dance-to-Music Generation with Genre-Adaptive Rhythm and Context-Aware Alignment
di: Wang, Jinting, et al.
Pubblicazione: (2025)
di: Wang, Jinting, et al.
Pubblicazione: (2025)
Learning Temporal Resolution in Spectrogram for Audio Classification
di: Liu, Haohe, et al.
Pubblicazione: (2022)
di: Liu, Haohe, et al.
Pubblicazione: (2022)
PIAST: A Multimodal Piano Dataset with Audio, Symbolic and Text
di: Bang, Hayeon, et al.
Pubblicazione: (2024)
di: Bang, Hayeon, et al.
Pubblicazione: (2024)
DeepFake Doctor: Diagnosing and Treating Audio-Video Fake Detection
di: Klemt, Marcel, et al.
Pubblicazione: (2025)
di: Klemt, Marcel, et al.
Pubblicazione: (2025)
LAVCap: LLM-based Audio-Visual Captioning using Optimal Transport
di: Rho, Kyeongha, et al.
Pubblicazione: (2025)
di: Rho, Kyeongha, et al.
Pubblicazione: (2025)
Leveraging Pre-Trained Autoencoders for Interpretable Prototype Learning of Music Audio
di: Alonso-Jiménez, Pablo, et al.
Pubblicazione: (2024)
di: Alonso-Jiménez, Pablo, et al.
Pubblicazione: (2024)
Robust Audio Anti-Spoofing with Fusion-Reconstruction Learning on Multi-Order Spectrograms
di: Wen, Penghui, et al.
Pubblicazione: (2023)
di: Wen, Penghui, et al.
Pubblicazione: (2023)
SHMamba: Structured Hyperbolic State Space Model for Audio-Visual Question Answering
di: Yang, Zhe, et al.
Pubblicazione: (2024)
di: Yang, Zhe, et al.
Pubblicazione: (2024)
Diverse Audio Embeddings -- Bringing Features Back Outperforms CLAP!
di: Verma, Prateek
Pubblicazione: (2023)
di: Verma, Prateek
Pubblicazione: (2023)
A Multi-Stream Fusion Approach with One-Class Learning for Audio-Visual Deepfake Detection
di: Lee, Kyungbok, et al.
Pubblicazione: (2024)
di: Lee, Kyungbok, et al.
Pubblicazione: (2024)
DreamHead: Learning Spatial-Temporal Correspondence via Hierarchical Diffusion for Audio-driven Talking Head Synthesis
di: Hong, Fa-Ting, et al.
Pubblicazione: (2024)
di: Hong, Fa-Ting, et al.
Pubblicazione: (2024)
LAV: Audio-Driven Dynamic Visual Generation with Neural Compression and StyleGAN2
di: Jung, Jongmin, et al.
Pubblicazione: (2025)
di: Jung, Jongmin, et al.
Pubblicazione: (2025)
Generative AI for Music and Audio
di: Dong, Hao-Wen
Pubblicazione: (2024)
di: Dong, Hao-Wen
Pubblicazione: (2024)
Fast Text-to-Audio Generation with Adversarial Post-Training
di: Novack, Zachary, et al.
Pubblicazione: (2025)
di: Novack, Zachary, et al.
Pubblicazione: (2025)
GVMGen: A General Video-to-Music Generation Model with Hierarchical Attentions
di: Zuo, Heda, et al.
Pubblicazione: (2025)
di: Zuo, Heda, et al.
Pubblicazione: (2025)
STA-V2A: Video-to-Audio Generation with Semantic and Temporal Alignment
di: Ren, Yong, et al.
Pubblicazione: (2024)
di: Ren, Yong, et al.
Pubblicazione: (2024)
Challenge on Sound Scene Synthesis: Evaluating Text-to-Audio Generation
di: Lee, Junwon, et al.
Pubblicazione: (2024)
di: Lee, Junwon, et al.
Pubblicazione: (2024)
Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models
di: Chen, Yiming, et al.
Pubblicazione: (2024)
di: Chen, Yiming, et al.
Pubblicazione: (2024)
Rhythmic Foley: A Framework For Seamless Audio-Visual Alignment In Video-to-Audio Synthesis
di: Huang, Zhiqi, et al.
Pubblicazione: (2024)
di: Huang, Zhiqi, et al.
Pubblicazione: (2024)
Audio Transformers
di: Verma, Prateek, et al.
Pubblicazione: (2021)
di: Verma, Prateek, et al.
Pubblicazione: (2021)
Emotion-Aware Speech Generation with Character-Specific Voices for Comics
di: Qian, Zhiwen, et al.
Pubblicazione: (2025)
di: Qian, Zhiwen, et al.
Pubblicazione: (2025)
Controllable Video-to-Music Generation with Multiple Time-Varying Conditions
di: Wu, Junxian, et al.
Pubblicazione: (2025)
di: Wu, Junxian, et al.
Pubblicazione: (2025)
Frechet Music Distance: A Metric For Generative Symbolic Music Evaluation
di: Retkowski, Jan, et al.
Pubblicazione: (2024)
di: Retkowski, Jan, et al.
Pubblicazione: (2024)
YuE: Scaling Open Foundation Models for Long-Form Music Generation
di: Yuan, Ruibin, et al.
Pubblicazione: (2025)
di: Yuan, Ruibin, et al.
Pubblicazione: (2025)
Zero-Effort Image-to-Music Generation: An Interpretable RAG-based VLM Approach
di: Zhao, Zijian, et al.
Pubblicazione: (2025)
di: Zhao, Zijian, et al.
Pubblicazione: (2025)
Documenti analoghi
-
Retrieval-Augmented Text-to-Audio Generation
di: Yuan, Yi, et al.
Pubblicazione: (2023) -
Model-Guided Dual-Role Alignment for High-Fidelity Open-Domain Video-to-Audio Generation
di: Zhang, Kang, et al.
Pubblicazione: (2025) -
Towards Generating Diverse Audio Captions via Adversarial Training
di: Mei, Xinhao, et al.
Pubblicazione: (2022) -
Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study
di: Yuan, Yi, et al.
Pubblicazione: (2023) -
Integrating IP Broadcasting with Audio Tags: Workflow and Challenges
di: Burchett-Vass, Rhys, et al.
Pubblicazione: (2024)