Salvato in:
| Autori principali: | Xie, Tianxin, Lei, Wentao, Jiang, Kai, Huang, Guanjie, Zhang, Pengfei, Zhang, Chunhui, Ma, Fengji, He, Haoyu, Zhang, Han, He, Jiangshan, Wang, Jinting, Fang, Linghan, Gao, Lufei, Ablet, Orkesh, Zhang, Peihua, Hu, Ruolin, Li, Shengyu, Lin, Weilin, Feng, Xiaoyang, Yang, Xinyue, Rong, Yan, Wang, Yanyun, Shao, Zihang, Zhao, Zelin, Li, Chenxing, Yang, Shan, Wang, Wenfu, Yu, Meng, Yu, Dong, Liu, Li |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2512.23994 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Audio-DeepThinker: Progressive Reasoning-Aware Reinforcement Learning for High-Quality Chain-of-Thought Emergence in Audio Language Models
di: He, Xiang, et al.
Pubblicazione: (2026)
di: He, Xiang, et al.
Pubblicazione: (2026)
Audio-Thinker: Guiding Audio Language Model When and How to Think via Reinforcement Learning
di: Wu, Shu, et al.
Pubblicazione: (2025)
di: Wu, Shu, et al.
Pubblicazione: (2025)
A Comprehensive Survey on Human Video Generation: Challenges, Methods, and Insights
di: Lei, Wentao, et al.
Pubblicazione: (2024)
di: Lei, Wentao, et al.
Pubblicazione: (2024)
Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards
di: Fang, Linghan, et al.
Pubblicazione: (2026)
di: Fang, Linghan, et al.
Pubblicazione: (2026)
VCB Bench: An Evaluation Benchmark for Audio-Grounded Large Language Model Conversational Agents
di: Hu, Jiliang, et al.
Pubblicazione: (2025)
di: Hu, Jiliang, et al.
Pubblicazione: (2025)
DegDiT: Controllable Audio Generation with Dynamic Event Graph Guided Diffusion Transformer
di: Liu, Yisu, et al.
Pubblicazione: (2025)
di: Liu, Yisu, et al.
Pubblicazione: (2025)
SemanticVocoder: Bridging Audio Generation and Audio Understanding via Semantic Latents
di: Xie, Zeyu, et al.
Pubblicazione: (2026)
di: Xie, Zeyu, et al.
Pubblicazione: (2026)
GACA-DiT: Diffusion-based Dance-to-Music Generation with Genre-Adaptive Rhythm and Context-Aware Alignment
di: Wang, Jinting, et al.
Pubblicazione: (2025)
di: Wang, Jinting, et al.
Pubblicazione: (2025)
AVBench: Human-Aligned and Automated Evaluation Benchmark for Audio-Video Generative Models
di: Yang, Jialiang, et al.
Pubblicazione: (2026)
di: Yang, Jialiang, et al.
Pubblicazione: (2026)
EzAudio: Enhancing Text-to-Audio Generation with Efficient Diffusion Transformer
di: Hai, Jiarui, et al.
Pubblicazione: (2024)
di: Hai, Jiarui, et al.
Pubblicazione: (2024)
JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation
di: Chao, Jianghan, et al.
Pubblicazione: (2025)
di: Chao, Jianghan, et al.
Pubblicazione: (2025)
SRC-gAudio: Sampling-Rate-Controlled Audio Generation
di: Li, Chenxing, et al.
Pubblicazione: (2024)
di: Li, Chenxing, et al.
Pubblicazione: (2024)
When Audio Generators Become Good Listeners: Generative Features for Understanding Tasks
di: Xie, Zeyu, et al.
Pubblicazione: (2025)
di: Xie, Zeyu, et al.
Pubblicazione: (2025)
AG-REPA: Causal Layer Selection for Representation Alignment in Audio Flow Matching
di: Zhang, Pengfei, et al.
Pubblicazione: (2026)
di: Zhang, Pengfei, et al.
Pubblicazione: (2026)
Covo-Audio Technical Report
di: Wang, Wenfu, et al.
Pubblicazione: (2026)
di: Wang, Wenfu, et al.
Pubblicazione: (2026)
AudioRAG+: Feedback-driven Retrieval-augmented Audio Generation with Large Audio Language Models
di: Zhao, Junqi, et al.
Pubblicazione: (2025)
di: Zhao, Junqi, et al.
Pubblicazione: (2025)
The Impact of Audio Watermarking on Audio Anti-Spoofing Countermeasures
di: Zhang, Zhenshan, et al.
Pubblicazione: (2025)
di: Zhang, Zhenshan, et al.
Pubblicazione: (2025)
AudioGenie-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning
di: Rong, Yan, et al.
Pubblicazione: (2025)
di: Rong, Yan, et al.
Pubblicazione: (2025)
AudioMarathon: A Comprehensive Benchmark for Long-Context Audio Understanding and Efficiency in Audio LLMs
di: He, Peize, et al.
Pubblicazione: (2025)
di: He, Peize, et al.
Pubblicazione: (2025)
UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation
di: Wang, Jinting, et al.
Pubblicazione: (2025)
di: Wang, Jinting, et al.
Pubblicazione: (2025)
AudioGenie: A Training-Free Multi-Agent Framework for Diverse Multimodality-to-Multiaudio Generation
di: Rong, Yan, et al.
Pubblicazione: (2025)
di: Rong, Yan, et al.
Pubblicazione: (2025)
Jointly Recognizing Speech and Singing Voices Based on Multi-Task Audio Source Separation
di: Bai, Ye, et al.
Pubblicazione: (2024)
di: Bai, Ye, et al.
Pubblicazione: (2024)
Integrating Artificial Intelligence into Operating Systems: A Survey on Techniques, Applications, and Future Directions
di: Zhang, Yifan, et al.
Pubblicazione: (2024)
di: Zhang, Yifan, et al.
Pubblicazione: (2024)
AudioRAG: A Challenging Benchmark for Audio Reasoning and Information Retrieval
di: Lin, Jingru, et al.
Pubblicazione: (2026)
di: Lin, Jingru, et al.
Pubblicazione: (2026)
SemanticAudio: Audio Generation and Editing in Semantic Space
di: Dai, Zheqi, et al.
Pubblicazione: (2026)
di: Dai, Zheqi, et al.
Pubblicazione: (2026)
PhiP-G: Physics-Guided Text-to-3D Compositional Scene Generation
di: Li, Qixuan, et al.
Pubblicazione: (2025)
di: Li, Qixuan, et al.
Pubblicazione: (2025)
Tora3: Trajectory-Guided Audio-Video Generation with Physical Coherence
di: Liao, Junchao, et al.
Pubblicazione: (2026)
di: Liao, Junchao, et al.
Pubblicazione: (2026)
Audio Deepfake Verification
di: Wang, Li, et al.
Pubblicazione: (2025)
di: Wang, Li, et al.
Pubblicazione: (2025)
ChronosAudio: A Comprehensive Long-Audio Benchmark for Evaluating Audio-Large Language Models
di: Luo, Kaiwen, et al.
Pubblicazione: (2026)
di: Luo, Kaiwen, et al.
Pubblicazione: (2026)
To Stay or to Bypass: Unraveling Mainline Vehicles' Aggregate Strategic Decision-Making at Highway Weaving Ramps
di: He, Haohui, et al.
Pubblicazione: (2025)
di: He, Haohui, et al.
Pubblicazione: (2025)
When Altruism Meets Autonomy: Managing Bottleneck Congestion with Strategic Autonomous Vehicles
di: Wang, Kexin, et al.
Pubblicazione: (2026)
di: Wang, Kexin, et al.
Pubblicazione: (2026)
Diffusion Gaussian Mixture Audio Denoise
di: Wang, Pu, et al.
Pubblicazione: (2024)
di: Wang, Pu, et al.
Pubblicazione: (2024)
PhyDetEx: Detecting and Explaining the Physical Plausibility of T2V Models
di: Wang, Zeqing, et al.
Pubblicazione: (2025)
di: Wang, Zeqing, et al.
Pubblicazione: (2025)
Complex Image-Generative Diffusion Transformer for Audio Denoising
di: Li, Junhui, et al.
Pubblicazione: (2024)
di: Li, Junhui, et al.
Pubblicazione: (2024)
AudioKV: KV Cache Eviction in Efficient Large Audio Language Models
di: Wang, Yuxuan, et al.
Pubblicazione: (2026)
di: Wang, Yuxuan, et al.
Pubblicazione: (2026)
Strategic Joining and Optimal Pricing in a Single‐Server Batch Arrival Queue With Different Information of Batch Size
di: Kaili Li, et al.
Pubblicazione: (2025)
di: Kaili Li, et al.
Pubblicazione: (2025)
Streaming Audio Transformers for Online Audio Tagging
di: Dinkel, Heinrich, et al.
Pubblicazione: (2023)
di: Dinkel, Heinrich, et al.
Pubblicazione: (2023)
Representation-Regularized Convolutional Audio Transformer for Audio Understanding
di: Han, Bing, et al.
Pubblicazione: (2026)
di: Han, Bing, et al.
Pubblicazione: (2026)
PhyRPR: Training-Free Physics-Constrained Video Generation
di: Zhao, Yibo, et al.
Pubblicazione: (2026)
di: Zhao, Yibo, et al.
Pubblicazione: (2026)
Enhancing Automated Audio Captioning via Large Language Models with Optimized Audio Encoding
di: Liu, Jizhong, et al.
Pubblicazione: (2024)
di: Liu, Jizhong, et al.
Pubblicazione: (2024)
Documenti analoghi
-
Audio-DeepThinker: Progressive Reasoning-Aware Reinforcement Learning for High-Quality Chain-of-Thought Emergence in Audio Language Models
di: He, Xiang, et al.
Pubblicazione: (2026) -
Audio-Thinker: Guiding Audio Language Model When and How to Think via Reinforcement Learning
di: Wu, Shu, et al.
Pubblicazione: (2025) -
A Comprehensive Survey on Human Video Generation: Challenges, Methods, and Insights
di: Lei, Wentao, et al.
Pubblicazione: (2024) -
Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards
di: Fang, Linghan, et al.
Pubblicazione: (2026) -
VCB Bench: An Evaluation Benchmark for Audio-Grounded Large Language Model Conversational Agents
di: Hu, Jiliang, et al.
Pubblicazione: (2025)