:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Kouteili, Sam, Madhu, Hiren, Typaldos, George, Santolucito, Mark
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Multimedia Artificial Intelligence Sound Audio and Speech Processing
Accesso online:	https://arxiv.org/abs/2508.05473
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Retrieval-Augmented Text-to-Audio Generation
di: Yuan, Yi, et al.
Pubblicazione: (2023)

Model-Guided Dual-Role Alignment for High-Fidelity Open-Domain Video-to-Audio Generation
di: Zhang, Kang, et al.
Pubblicazione: (2025)

Towards Generating Diverse Audio Captions via Adversarial Training
di: Mei, Xinhao, et al.
Pubblicazione: (2022)

Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study
di: Yuan, Yi, et al.
Pubblicazione: (2023)

Integrating IP Broadcasting with Audio Tags: Workflow and Challenges
di: Burchett-Vass, Rhys, et al.
Pubblicazione: (2024)

FreeAudio: Training-Free Timing Planning for Controllable Long-Form Text-to-Audio Generation
di: Jiang, Yuxuan, et al.
Pubblicazione: (2025)

OmniCustom: Sync Audio-Video Customization Via Joint Audio-Video Generation Model
di: Li, Maomao, et al.
Pubblicazione: (2026)

AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining
di: Liu, Haohe, et al.
Pubblicazione: (2023)

Listening and Seeing Again: Generative Error Correction for Audio-Visual Speech Recognition
di: Liu, Rui, et al.
Pubblicazione: (2025)

AudioRole: An Audio Dataset for Character Role-Playing in Large Language Models
di: Li, Wenyu, et al.
Pubblicazione: (2025)

LPIPS-AttnWav2Lip: Generic Audio-Driven lip synchronization for Talking Head Generation in the Wild
di: Chen, Zhipeng, et al.
Pubblicazione: (2026)

Towards Assessing Data Replication in Music Generation with Music Similarity Metrics on Raw Audio
di: Batlle-Roca, Roser, et al.
Pubblicazione: (2024)

SemantiCodec: An Ultra Low Bitrate Semantic Audio Codec for General Sound
di: Liu, Haohe, et al.
Pubblicazione: (2024)

Neural Style Transfer for Audio Spectograms
di: Verma, Prateek, et al.
Pubblicazione: (2018)

Unveiling Visual Biases in Audio-Visual Localization Benchmarks
di: Chen, Liangyu, et al.
Pubblicazione: (2024)

GACA-DiT: Diffusion-based Dance-to-Music Generation with Genre-Adaptive Rhythm and Context-Aware Alignment
di: Wang, Jinting, et al.
Pubblicazione: (2025)

Learning Temporal Resolution in Spectrogram for Audio Classification
di: Liu, Haohe, et al.
Pubblicazione: (2022)

PIAST: A Multimodal Piano Dataset with Audio, Symbolic and Text
di: Bang, Hayeon, et al.
Pubblicazione: (2024)

DeepFake Doctor: Diagnosing and Treating Audio-Video Fake Detection
di: Klemt, Marcel, et al.
Pubblicazione: (2025)

LAVCap: LLM-based Audio-Visual Captioning using Optimal Transport
di: Rho, Kyeongha, et al.
Pubblicazione: (2025)

Leveraging Pre-Trained Autoencoders for Interpretable Prototype Learning of Music Audio
di: Alonso-Jiménez, Pablo, et al.
Pubblicazione: (2024)

Robust Audio Anti-Spoofing with Fusion-Reconstruction Learning on Multi-Order Spectrograms
di: Wen, Penghui, et al.
Pubblicazione: (2023)

SHMamba: Structured Hyperbolic State Space Model for Audio-Visual Question Answering
di: Yang, Zhe, et al.
Pubblicazione: (2024)

Diverse Audio Embeddings -- Bringing Features Back Outperforms CLAP!
di: Verma, Prateek
Pubblicazione: (2023)

A Multi-Stream Fusion Approach with One-Class Learning for Audio-Visual Deepfake Detection
di: Lee, Kyungbok, et al.
Pubblicazione: (2024)

DreamHead: Learning Spatial-Temporal Correspondence via Hierarchical Diffusion for Audio-driven Talking Head Synthesis
di: Hong, Fa-Ting, et al.
Pubblicazione: (2024)

LAV: Audio-Driven Dynamic Visual Generation with Neural Compression and StyleGAN2
di: Jung, Jongmin, et al.
Pubblicazione: (2025)

Generative AI for Music and Audio
di: Dong, Hao-Wen
Pubblicazione: (2024)

Fast Text-to-Audio Generation with Adversarial Post-Training
di: Novack, Zachary, et al.
Pubblicazione: (2025)

GVMGen: A General Video-to-Music Generation Model with Hierarchical Attentions
di: Zuo, Heda, et al.
Pubblicazione: (2025)

STA-V2A: Video-to-Audio Generation with Semantic and Temporal Alignment
di: Ren, Yong, et al.
Pubblicazione: (2024)

Challenge on Sound Scene Synthesis: Evaluating Text-to-Audio Generation
di: Lee, Junwon, et al.
Pubblicazione: (2024)

Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models
di: Chen, Yiming, et al.
Pubblicazione: (2024)

Rhythmic Foley: A Framework For Seamless Audio-Visual Alignment In Video-to-Audio Synthesis
di: Huang, Zhiqi, et al.
Pubblicazione: (2024)

Audio Transformers
di: Verma, Prateek, et al.
Pubblicazione: (2021)

Emotion-Aware Speech Generation with Character-Specific Voices for Comics
di: Qian, Zhiwen, et al.
Pubblicazione: (2025)

Controllable Video-to-Music Generation with Multiple Time-Varying Conditions
di: Wu, Junxian, et al.
Pubblicazione: (2025)

Frechet Music Distance: A Metric For Generative Symbolic Music Evaluation
di: Retkowski, Jan, et al.
Pubblicazione: (2024)

YuE: Scaling Open Foundation Models for Long-Form Music Generation
di: Yuan, Ruibin, et al.
Pubblicazione: (2025)

Zero-Effort Image-to-Music Generation: An Interpretable RAG-based VLM Approach
di: Zhao, Zijian, et al.
Pubblicazione: (2025)