:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Xie, Tianxin, Lei, Wentao, Jiang, Kai, Huang, Guanjie, Zhang, Pengfei, Zhang, Chunhui, Ma, Fengji, He, Haoyu, Zhang, Han, He, Jiangshan, Wang, Jinting, Fang, Linghan, Gao, Lufei, Ablet, Orkesh, Zhang, Peihua, Hu, Ruolin, Li, Shengyu, Lin, Weilin, Feng, Xiaoyang, Yang, Xinyue, Rong, Yan, Wang, Yanyun, Shao, Zihang, Zhao, Zelin, Li, Chenxing, Yang, Shan, Wang, Wenfu, Yu, Meng, Yu, Dong, Liu, Li
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Sound Artificial Intelligence
Accesso online:	https://arxiv.org/abs/2512.23994
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Audio-DeepThinker: Progressive Reasoning-Aware Reinforcement Learning for High-Quality Chain-of-Thought Emergence in Audio Language Models
di: He, Xiang, et al.
Pubblicazione: (2026)

Audio-Thinker: Guiding Audio Language Model When and How to Think via Reinforcement Learning
di: Wu, Shu, et al.
Pubblicazione: (2025)

A Comprehensive Survey on Human Video Generation: Challenges, Methods, and Insights
di: Lei, Wentao, et al.
Pubblicazione: (2024)

Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards
di: Fang, Linghan, et al.
Pubblicazione: (2026)

VCB Bench: An Evaluation Benchmark for Audio-Grounded Large Language Model Conversational Agents
di: Hu, Jiliang, et al.
Pubblicazione: (2025)

DegDiT: Controllable Audio Generation with Dynamic Event Graph Guided Diffusion Transformer
di: Liu, Yisu, et al.
Pubblicazione: (2025)

SemanticVocoder: Bridging Audio Generation and Audio Understanding via Semantic Latents
di: Xie, Zeyu, et al.
Pubblicazione: (2026)

GACA-DiT: Diffusion-based Dance-to-Music Generation with Genre-Adaptive Rhythm and Context-Aware Alignment
di: Wang, Jinting, et al.
Pubblicazione: (2025)

AVBench: Human-Aligned and Automated Evaluation Benchmark for Audio-Video Generative Models
di: Yang, Jialiang, et al.
Pubblicazione: (2026)

EzAudio: Enhancing Text-to-Audio Generation with Efficient Diffusion Transformer
di: Hai, Jiarui, et al.
Pubblicazione: (2024)

JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation
di: Chao, Jianghan, et al.
Pubblicazione: (2025)

SRC-gAudio: Sampling-Rate-Controlled Audio Generation
di: Li, Chenxing, et al.
Pubblicazione: (2024)

When Audio Generators Become Good Listeners: Generative Features for Understanding Tasks
di: Xie, Zeyu, et al.
Pubblicazione: (2025)

AG-REPA: Causal Layer Selection for Representation Alignment in Audio Flow Matching
di: Zhang, Pengfei, et al.
Pubblicazione: (2026)

Covo-Audio Technical Report
di: Wang, Wenfu, et al.
Pubblicazione: (2026)

AudioRAG+: Feedback-driven Retrieval-augmented Audio Generation with Large Audio Language Models
di: Zhao, Junqi, et al.
Pubblicazione: (2025)

The Impact of Audio Watermarking on Audio Anti-Spoofing Countermeasures
di: Zhang, Zhenshan, et al.
Pubblicazione: (2025)

AudioGenie-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning
di: Rong, Yan, et al.
Pubblicazione: (2025)

AudioMarathon: A Comprehensive Benchmark for Long-Context Audio Understanding and Efficiency in Audio LLMs
di: He, Peize, et al.
Pubblicazione: (2025)

UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation
di: Wang, Jinting, et al.
Pubblicazione: (2025)

AudioGenie: A Training-Free Multi-Agent Framework for Diverse Multimodality-to-Multiaudio Generation
di: Rong, Yan, et al.
Pubblicazione: (2025)

Jointly Recognizing Speech and Singing Voices Based on Multi-Task Audio Source Separation
di: Bai, Ye, et al.
Pubblicazione: (2024)

Integrating Artificial Intelligence into Operating Systems: A Survey on Techniques, Applications, and Future Directions
di: Zhang, Yifan, et al.
Pubblicazione: (2024)

AudioRAG: A Challenging Benchmark for Audio Reasoning and Information Retrieval
di: Lin, Jingru, et al.
Pubblicazione: (2026)

SemanticAudio: Audio Generation and Editing in Semantic Space
di: Dai, Zheqi, et al.
Pubblicazione: (2026)

PhiP-G: Physics-Guided Text-to-3D Compositional Scene Generation
di: Li, Qixuan, et al.
Pubblicazione: (2025)

Tora3: Trajectory-Guided Audio-Video Generation with Physical Coherence
di: Liao, Junchao, et al.
Pubblicazione: (2026)

Audio Deepfake Verification
di: Wang, Li, et al.
Pubblicazione: (2025)

ChronosAudio: A Comprehensive Long-Audio Benchmark for Evaluating Audio-Large Language Models
di: Luo, Kaiwen, et al.
Pubblicazione: (2026)

To Stay or to Bypass: Unraveling Mainline Vehicles' Aggregate Strategic Decision-Making at Highway Weaving Ramps
di: He, Haohui, et al.
Pubblicazione: (2025)

When Altruism Meets Autonomy: Managing Bottleneck Congestion with Strategic Autonomous Vehicles
di: Wang, Kexin, et al.
Pubblicazione: (2026)

Diffusion Gaussian Mixture Audio Denoise
di: Wang, Pu, et al.
Pubblicazione: (2024)

PhyDetEx: Detecting and Explaining the Physical Plausibility of T2V Models
di: Wang, Zeqing, et al.
Pubblicazione: (2025)

Complex Image-Generative Diffusion Transformer for Audio Denoising
di: Li, Junhui, et al.
Pubblicazione: (2024)

AudioKV: KV Cache Eviction in Efficient Large Audio Language Models
di: Wang, Yuxuan, et al.
Pubblicazione: (2026)

Strategic Joining and Optimal Pricing in a Single‐Server Batch Arrival Queue With Different Information of Batch Size
di: Kaili Li, et al.
Pubblicazione: (2025)

Streaming Audio Transformers for Online Audio Tagging
di: Dinkel, Heinrich, et al.
Pubblicazione: (2023)

Representation-Regularized Convolutional Audio Transformer for Audio Understanding
di: Han, Bing, et al.
Pubblicazione: (2026)

PhyRPR: Training-Free Physics-Constrained Video Generation
di: Zhao, Yibo, et al.
Pubblicazione: (2026)

Enhancing Automated Audio Captioning via Large Language Models with Optimized Audio Encoding
di: Liu, Jizhong, et al.
Pubblicazione: (2024)