:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Yu, Zhengyang, Hayakawa, Akio, Ishii, Masato, Yu, Qingtao, Shibuya, Takashi, Zhang, Jing, Mitsufuji, Yuki
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Computer Vision and Pattern Recognition
Accesso online:	https://arxiv.org/abs/2512.11203
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

A Simple but Strong Baseline for Sounding Video Generation: Effective Adaptation of Audio and Video Diffusion Models for Joint Generation
di: Ishii, Masato, et al.
Pubblicazione: (2024)

MMDisCo: Multi-Modal Discriminator-Guided Cooperative Diffusion for Joint Audio and Video Generation
di: Hayakawa, Akio, et al.
Pubblicazione: (2024)

Step-by-Step Video-to-Audio Synthesis via Negative Audio Guidance
di: Hayakawa, Akio, et al.
Pubblicazione: (2025)

Coherent Audio-Visual Editing via Conditional Audio Generation Following Video Edits
di: Ishii, Masato, et al.
Pubblicazione: (2025)

TITAN-Guide: Taming Inference-Time AligNment for Guided Text-to-Video Diffusion Models
di: Simon, Christian, et al.
Pubblicazione: (2025)

MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis
di: Cheng, Ho Kei, et al.
Pubblicazione: (2024)

Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models
di: Simon, Christian, et al.
Pubblicazione: (2026)

SoundReactor: Frame-level Online Video-to-Audio Generation
di: Saito, Koichi, et al.
Pubblicazione: (2025)

AutoRefine: From Trajectories to Reusable Expertise for Continual LLM Agent Refinement
di: Qiu, Libin, et al.
Pubblicazione: (2026)

Diffusion-based Signal Refiner for Speech Enhancement and Separation
di: Hirano, Masato, et al.
Pubblicazione: (2023)

Visual Echoes: A Simple Unified Transformer for Audio-Visual Generation
di: Yang, Shiqi, et al.
Pubblicazione: (2024)

BigVSAN: Enhancing GAN-based Neural Vocoders with Slicing Adversarial Network
di: Shibuya, Takashi, et al.
Pubblicazione: (2023)

Theoretical Refinement of CLIP by Utilizing Linear Structure of Optimal Similarity
di: Yoshida, Naoki, et al.
Pubblicazione: (2025)

SAVGBench: Benchmarking Spatially Aligned Audio-Video Generation
di: Shimada, Kazuki, et al.
Pubblicazione: (2024)

Efficiency without Compromise: CLIP-aided Text-to-Image GANs with Increased Diversity
di: Kobayashi, Yuya, et al.
Pubblicazione: (2025)

HumanGif: Single-View Human Diffusion with Generative Prior
di: Hu, Shoukang, et al.
Pubblicazione: (2025)

Diffusion-Based Speech Enhancement with Joint Generative and Predictive Decoders
di: Shi, Hao, et al.
Pubblicazione: (2023)

StereoSync: Spatially-Aware Stereo Audio Generation from Video
di: Marinoni, Christian, et al.
Pubblicazione: (2025)

Dyadic Mamba: Long-term Dyadic Human Motion Synthesis
di: Tanke, Julian, et al.
Pubblicazione: (2025)

$\textit{Jump Your Steps}$: Optimizing Sampling Schedule of Discrete Diffusion Models
di: Park, Yong-Hyun, et al.
Pubblicazione: (2024)

MoLA: Motion Generation and Editing with Latent Diffusion Enhanced by Adversarial Training
di: Uchida, Kengo, et al.
Pubblicazione: (2024)

Distillation of Discrete Diffusion through Dimensional Correlations
di: Hayakawa, Satoshi, et al.
Pubblicazione: (2024)

Demystifying MaskGIT Sampler and Beyond: Adaptive Order Selection in Masked Diffusion
di: Hayakawa, Satoshi, et al.
Pubblicazione: (2025)

SONA: Learning Conditional, Unconditional, and Mismatching-Aware Discriminator
di: Takida, Yuhta, et al.
Pubblicazione: (2025)

CCStereo: Audio-Visual Contextual and Contrastive Learning for Binaural Audio Generation
di: Chen, Yuanhong, et al.
Pubblicazione: (2025)

SongBloom: Coherent Song Generation via Interleaved Autoregressive Sketching and Diffusion Refinement
di: Yang, Chenyu, et al.
Pubblicazione: (2025)

Self-Refining Video Sampling
di: Jang, Sangwon, et al.
Pubblicazione: (2026)

Forging and Removing Latent-Noise Diffusion Watermarks Using a Single Image
di: Jain, Anubhav, et al.
Pubblicazione: (2025)

Zero- and Few-shot Sound Event Localization and Detection
di: Shimada, Kazuki, et al.
Pubblicazione: (2023)

TraSCE: Trajectory Steering for Concept Erasure
di: Jain, Anubhav, et al.
Pubblicazione: (2024)

Classifier-Free Guidance inside the Attraction Basin May Cause Memorization
di: Jain, Anubhav, et al.
Pubblicazione: (2024)

Condition Errors Refinement in Autoregressive Image Generation with Diffusion Loss
di: Zhou, Yucheng, et al.
Pubblicazione: (2026)

SAN: Inducing Metrizability of GAN with Discriminative Normalized Linear Layer
di: Takida, Yuhta, et al.
Pubblicazione: (2023)

SoundCTM: Unifying Score-based and Consistency Models for Full-band Text-to-Sound Generation
di: Saito, Koichi, et al.
Pubblicazione: (2024)

Cascading Refinement Video Denoising with Uncertainty Adaptivity
di: Yu, Xinyuan
Pubblicazione: (2024)

Mining Your Own Secrets: Diffusion Classifier Scores for Continual Personalization of Text-to-Image Diffusion Models
di: Jha, Saurav, et al.
Pubblicazione: (2024)

Visual Self-Refinement for Autoregressive Models
di: Wang, Jiamian, et al.
Pubblicazione: (2025)

TIMED: Adversarial and Autoregressive Refinement of Diffusion-Based Time Series Generation
di: EskandariNasab, MohammadReza, et al.
Pubblicazione: (2025)

MMAudioSep: Taming Video-to-Audio Generative Model Towards Video/Text-Queried Sound Separation
di: Takahashi, Akira, et al.
Pubblicazione: (2025)

Automatic Music Sample Identification with Multi-Track Contrastive Learning
di: Riou, Alain, et al.
Pubblicazione: (2025)