:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Wang, Chaoyang, Feng, Kaituo, Chen, Dongyang, Wang, Zhongyu, Li, Zhixun, Gao, Sicheng, Meng, Meng, Zhou, Xu, Zhang, Manyuan, Shang, Yuzhang, Yue, Xiangyu
Format:	Preprint
Veröffentlicht:	2025
Schlagworte:	Computer Vision and Pattern Recognition
Online-Zugang:	https://arxiv.org/abs/2512.16918
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

Exploring Reasoning Reward Model for Agents
von: Fan, Kaixuan, et al.
Veröffentlicht: (2026)

VLA-Thinker: Boosting Vision-Language-Action Models through Thinking-with-Image Reasoning
von: Wang, Chaoyang, et al.
Veröffentlicht: (2026)

Gen-Searcher: Reinforcing Agentic Search for Image Generation
von: Feng, Kaituo, et al.
Veröffentlicht: (2026)

V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval
von: Chen, Dongyang, et al.
Veröffentlicht: (2026)

OneThinker: All-in-one Reasoning Model for Image and Video
von: Feng, Kaituo, et al.
Veröffentlicht: (2025)

SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward
von: Fan, Kaixuan, et al.
Veröffentlicht: (2025)

Distill Video Datasets into Images
von: Zhao, Zhenghao, et al.
Veröffentlicht: (2025)

Video-R1: Reinforcing Video Reasoning in MLLMs
von: Feng, Kaituo, et al.
Veröffentlicht: (2025)

OpenGame: Open Agentic Coding for Games
von: Jiang, Yilei, et al.
Veröffentlicht: (2026)

Uni-Edit: Intelligent Editing Is A General Task For Unified Model Tuning
von: Zheng, Dian, et al.
Veröffentlicht: (2026)

AdaGen: Learning Adaptive Policy for Image Synthesis
von: Ni, Zanlin, et al.
Veröffentlicht: (2026)

Uni-AdaFocus: Spatial-temporal Dynamic Computation for Video Recognition
von: Wang, Yulin, et al.
Veröffentlicht: (2024)

AdaSpark: Adaptive Sparsity for Efficient Long-Video Understanding
von: Li, Handong, et al.
Veröffentlicht: (2026)

Vision-EKIPL: External Knowledge-Infused Policy Learning for Visual Reasoning
von: Wang, Chaoyang, et al.
Veröffentlicht: (2025)

Fira: Can We Achieve Full-rank Training of LLMs Under Low-rank Constraint?
von: Chen, Xi, et al.
Veröffentlicht: (2024)

Attend Locally, Remember Linearly: Linear Attention as Cross-Frame Memory for Autoregressive Video Diffusion
von: Li, Kunyang, et al.
Veröffentlicht: (2026)

AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation
von: Ni, Zanlin, et al.
Veröffentlicht: (2024)

From Web to Pixels: Bringing Agentic Search into Visual Perception
von: Yang, Bokang, et al.
Veröffentlicht: (2026)

Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents
von: Zhang, Kaituo, et al.
Veröffentlicht: (2026)

PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache
von: Li, Kunyang, et al.
Veröffentlicht: (2026)

AdaMARP: An Adaptive Multi-Agent Interaction Framework for General Immersive Role-Playing
von: Xu, Zhenhua, et al.
Veröffentlicht: (2026)

Learning to Generate Parameters of ConvNets for Unseen Image Data
von: Wang, Shiye, et al.
Veröffentlicht: (2023)

AdaDecode: Accelerating LLM Decoding with Adaptive Layer Parallelism
von: Wei, Zhepei, et al.
Veröffentlicht: (2025)

AdaMSS: Adaptive Multi-Modality Segmentation-to-Survival Learning for Survival Outcome Prediction from PET/CT Images
von: Meng, Mingyuan, et al.
Veröffentlicht: (2023)

ParaVT: Taming the Tool Prior Paradox for Parallel Tool Use in Agentic Video Reinforcement Learning
von: Yang, Zuhao, et al.
Veröffentlicht: (2026)

Dataset Quantization with Active Learning based Adaptive Sampling
von: Zhao, Zhenghao, et al.
Veröffentlicht: (2024)

AdaTP: Attention-Debiased Token Pruning for Video Large Language Models
von: Sun, Fengyuan, et al.
Veröffentlicht: (2025)

Ada3Drift: Adaptive Training-Time Drifting for One-Step 3D Visuomotor Robotic Manipulation
von: Xu, Chongyang, et al.
Veröffentlicht: (2026)

Ada-FCN: Adaptive Frequency-Coupled Network for fMRI-Based Brain Disorder Classification
von: Xun, Yue, et al.
Veröffentlicht: (2025)

AdaSwitch: Balancing Exploration and Guidance in Knowledge Distillation via Adaptive Switching
von: Peng, Jingyu, et al.
Veröffentlicht: (2025)

AdaVid: Adaptive Video-Language Pretraining
von: Patel, Chaitanya, et al.
Veröffentlicht: (2025)

AdaReasoner: Adaptive Reasoning Enables More Flexible Thinking in Large Language Models
von: Wang, Xiangqi, et al.
Veröffentlicht: (2025)

AdaOcc: Adaptive-Resolution Occupancy Prediction
von: Chen, Chao, et al.
Veröffentlicht: (2024)

On minimal 3-folds with $K^3\geq 86$
von: Chen, Meng, et al.
Veröffentlicht: (2025)

MACRO: Advancing Multi-Reference Image Generation with Structured Long-Context Data
von: Chen, Zhekai, et al.
Veröffentlicht: (2026)

LoLiSRFlow: Joint Single Image Low-light Enhancement and Super-resolution via Cross-scale Transformer-based Conditional Flow
von: Yue, Ziyu, et al.
Veröffentlicht: (2024)

EditThinker: Unlocking Iterative Reasoning for Any Image Editor
von: Li, Hongyu, et al.
Veröffentlicht: (2025)

AIA: Rethinking Architecture Decoupling Strategy In Unified Multimodal Model
von: Zheng, Dian, et al.
Veröffentlicht: (2025)

Adaptive Spiking Neurons for Vision and Language Modeling
von: Zhou, Chenlin, et al.
Veröffentlicht: (2026)

A Survey of Token Compression for Efficient Multimodal Large Language Models
von: Shao, Kele, et al.
Veröffentlicht: (2025)