Salvato in:
| Autori principali: | Yu, Zhengyang, Hayakawa, Akio, Ishii, Masato, Yu, Qingtao, Shibuya, Takashi, Zhang, Jing, Mitsufuji, Yuki |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2512.11203 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
A Simple but Strong Baseline for Sounding Video Generation: Effective Adaptation of Audio and Video Diffusion Models for Joint Generation
di: Ishii, Masato, et al.
Pubblicazione: (2024)
di: Ishii, Masato, et al.
Pubblicazione: (2024)
MMDisCo: Multi-Modal Discriminator-Guided Cooperative Diffusion for Joint Audio and Video Generation
di: Hayakawa, Akio, et al.
Pubblicazione: (2024)
di: Hayakawa, Akio, et al.
Pubblicazione: (2024)
Step-by-Step Video-to-Audio Synthesis via Negative Audio Guidance
di: Hayakawa, Akio, et al.
Pubblicazione: (2025)
di: Hayakawa, Akio, et al.
Pubblicazione: (2025)
Coherent Audio-Visual Editing via Conditional Audio Generation Following Video Edits
di: Ishii, Masato, et al.
Pubblicazione: (2025)
di: Ishii, Masato, et al.
Pubblicazione: (2025)
TITAN-Guide: Taming Inference-Time AligNment for Guided Text-to-Video Diffusion Models
di: Simon, Christian, et al.
Pubblicazione: (2025)
di: Simon, Christian, et al.
Pubblicazione: (2025)
MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis
di: Cheng, Ho Kei, et al.
Pubblicazione: (2024)
di: Cheng, Ho Kei, et al.
Pubblicazione: (2024)
Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models
di: Simon, Christian, et al.
Pubblicazione: (2026)
di: Simon, Christian, et al.
Pubblicazione: (2026)
SoundReactor: Frame-level Online Video-to-Audio Generation
di: Saito, Koichi, et al.
Pubblicazione: (2025)
di: Saito, Koichi, et al.
Pubblicazione: (2025)
AutoRefine: From Trajectories to Reusable Expertise for Continual LLM Agent Refinement
di: Qiu, Libin, et al.
Pubblicazione: (2026)
di: Qiu, Libin, et al.
Pubblicazione: (2026)
Diffusion-based Signal Refiner for Speech Enhancement and Separation
di: Hirano, Masato, et al.
Pubblicazione: (2023)
di: Hirano, Masato, et al.
Pubblicazione: (2023)
Visual Echoes: A Simple Unified Transformer for Audio-Visual Generation
di: Yang, Shiqi, et al.
Pubblicazione: (2024)
di: Yang, Shiqi, et al.
Pubblicazione: (2024)
BigVSAN: Enhancing GAN-based Neural Vocoders with Slicing Adversarial Network
di: Shibuya, Takashi, et al.
Pubblicazione: (2023)
di: Shibuya, Takashi, et al.
Pubblicazione: (2023)
Theoretical Refinement of CLIP by Utilizing Linear Structure of Optimal Similarity
di: Yoshida, Naoki, et al.
Pubblicazione: (2025)
di: Yoshida, Naoki, et al.
Pubblicazione: (2025)
SAVGBench: Benchmarking Spatially Aligned Audio-Video Generation
di: Shimada, Kazuki, et al.
Pubblicazione: (2024)
di: Shimada, Kazuki, et al.
Pubblicazione: (2024)
Efficiency without Compromise: CLIP-aided Text-to-Image GANs with Increased Diversity
di: Kobayashi, Yuya, et al.
Pubblicazione: (2025)
di: Kobayashi, Yuya, et al.
Pubblicazione: (2025)
HumanGif: Single-View Human Diffusion with Generative Prior
di: Hu, Shoukang, et al.
Pubblicazione: (2025)
di: Hu, Shoukang, et al.
Pubblicazione: (2025)
Diffusion-Based Speech Enhancement with Joint Generative and Predictive Decoders
di: Shi, Hao, et al.
Pubblicazione: (2023)
di: Shi, Hao, et al.
Pubblicazione: (2023)
StereoSync: Spatially-Aware Stereo Audio Generation from Video
di: Marinoni, Christian, et al.
Pubblicazione: (2025)
di: Marinoni, Christian, et al.
Pubblicazione: (2025)
Dyadic Mamba: Long-term Dyadic Human Motion Synthesis
di: Tanke, Julian, et al.
Pubblicazione: (2025)
di: Tanke, Julian, et al.
Pubblicazione: (2025)
$\textit{Jump Your Steps}$: Optimizing Sampling Schedule of Discrete Diffusion Models
di: Park, Yong-Hyun, et al.
Pubblicazione: (2024)
di: Park, Yong-Hyun, et al.
Pubblicazione: (2024)
MoLA: Motion Generation and Editing with Latent Diffusion Enhanced by Adversarial Training
di: Uchida, Kengo, et al.
Pubblicazione: (2024)
di: Uchida, Kengo, et al.
Pubblicazione: (2024)
Distillation of Discrete Diffusion through Dimensional Correlations
di: Hayakawa, Satoshi, et al.
Pubblicazione: (2024)
di: Hayakawa, Satoshi, et al.
Pubblicazione: (2024)
Demystifying MaskGIT Sampler and Beyond: Adaptive Order Selection in Masked Diffusion
di: Hayakawa, Satoshi, et al.
Pubblicazione: (2025)
di: Hayakawa, Satoshi, et al.
Pubblicazione: (2025)
SONA: Learning Conditional, Unconditional, and Mismatching-Aware Discriminator
di: Takida, Yuhta, et al.
Pubblicazione: (2025)
di: Takida, Yuhta, et al.
Pubblicazione: (2025)
CCStereo: Audio-Visual Contextual and Contrastive Learning for Binaural Audio Generation
di: Chen, Yuanhong, et al.
Pubblicazione: (2025)
di: Chen, Yuanhong, et al.
Pubblicazione: (2025)
SongBloom: Coherent Song Generation via Interleaved Autoregressive Sketching and Diffusion Refinement
di: Yang, Chenyu, et al.
Pubblicazione: (2025)
di: Yang, Chenyu, et al.
Pubblicazione: (2025)
Self-Refining Video Sampling
di: Jang, Sangwon, et al.
Pubblicazione: (2026)
di: Jang, Sangwon, et al.
Pubblicazione: (2026)
Forging and Removing Latent-Noise Diffusion Watermarks Using a Single Image
di: Jain, Anubhav, et al.
Pubblicazione: (2025)
di: Jain, Anubhav, et al.
Pubblicazione: (2025)
Zero- and Few-shot Sound Event Localization and Detection
di: Shimada, Kazuki, et al.
Pubblicazione: (2023)
di: Shimada, Kazuki, et al.
Pubblicazione: (2023)
TraSCE: Trajectory Steering for Concept Erasure
di: Jain, Anubhav, et al.
Pubblicazione: (2024)
di: Jain, Anubhav, et al.
Pubblicazione: (2024)
Classifier-Free Guidance inside the Attraction Basin May Cause Memorization
di: Jain, Anubhav, et al.
Pubblicazione: (2024)
di: Jain, Anubhav, et al.
Pubblicazione: (2024)
Condition Errors Refinement in Autoregressive Image Generation with Diffusion Loss
di: Zhou, Yucheng, et al.
Pubblicazione: (2026)
di: Zhou, Yucheng, et al.
Pubblicazione: (2026)
SAN: Inducing Metrizability of GAN with Discriminative Normalized Linear Layer
di: Takida, Yuhta, et al.
Pubblicazione: (2023)
di: Takida, Yuhta, et al.
Pubblicazione: (2023)
SoundCTM: Unifying Score-based and Consistency Models for Full-band Text-to-Sound Generation
di: Saito, Koichi, et al.
Pubblicazione: (2024)
di: Saito, Koichi, et al.
Pubblicazione: (2024)
Cascading Refinement Video Denoising with Uncertainty Adaptivity
di: Yu, Xinyuan
Pubblicazione: (2024)
di: Yu, Xinyuan
Pubblicazione: (2024)
Mining Your Own Secrets: Diffusion Classifier Scores for Continual Personalization of Text-to-Image Diffusion Models
di: Jha, Saurav, et al.
Pubblicazione: (2024)
di: Jha, Saurav, et al.
Pubblicazione: (2024)
Visual Self-Refinement for Autoregressive Models
di: Wang, Jiamian, et al.
Pubblicazione: (2025)
di: Wang, Jiamian, et al.
Pubblicazione: (2025)
TIMED: Adversarial and Autoregressive Refinement of Diffusion-Based Time Series Generation
di: EskandariNasab, MohammadReza, et al.
Pubblicazione: (2025)
di: EskandariNasab, MohammadReza, et al.
Pubblicazione: (2025)
MMAudioSep: Taming Video-to-Audio Generative Model Towards Video/Text-Queried Sound Separation
di: Takahashi, Akira, et al.
Pubblicazione: (2025)
di: Takahashi, Akira, et al.
Pubblicazione: (2025)
Automatic Music Sample Identification with Multi-Track Contrastive Learning
di: Riou, Alain, et al.
Pubblicazione: (2025)
di: Riou, Alain, et al.
Pubblicazione: (2025)
Documenti analoghi
-
A Simple but Strong Baseline for Sounding Video Generation: Effective Adaptation of Audio and Video Diffusion Models for Joint Generation
di: Ishii, Masato, et al.
Pubblicazione: (2024) -
MMDisCo: Multi-Modal Discriminator-Guided Cooperative Diffusion for Joint Audio and Video Generation
di: Hayakawa, Akio, et al.
Pubblicazione: (2024) -
Step-by-Step Video-to-Audio Synthesis via Negative Audio Guidance
di: Hayakawa, Akio, et al.
Pubblicazione: (2025) -
Coherent Audio-Visual Editing via Conditional Audio Generation Following Video Edits
di: Ishii, Masato, et al.
Pubblicazione: (2025) -
TITAN-Guide: Taming Inference-Time AligNment for Guided Text-to-Video Diffusion Models
di: Simon, Christian, et al.
Pubblicazione: (2025)