Gespeichert in:
| Hauptverfasser: | Wang, Chaoyang, Feng, Kaituo, Chen, Dongyang, Wang, Zhongyu, Li, Zhixun, Gao, Sicheng, Meng, Meng, Zhou, Xu, Zhang, Manyuan, Shang, Yuzhang, Yue, Xiangyu |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2025
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2512.16918 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Exploring Reasoning Reward Model for Agents
von: Fan, Kaixuan, et al.
Veröffentlicht: (2026)
von: Fan, Kaixuan, et al.
Veröffentlicht: (2026)
VLA-Thinker: Boosting Vision-Language-Action Models through Thinking-with-Image Reasoning
von: Wang, Chaoyang, et al.
Veröffentlicht: (2026)
von: Wang, Chaoyang, et al.
Veröffentlicht: (2026)
Gen-Searcher: Reinforcing Agentic Search for Image Generation
von: Feng, Kaituo, et al.
Veröffentlicht: (2026)
von: Feng, Kaituo, et al.
Veröffentlicht: (2026)
V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval
von: Chen, Dongyang, et al.
Veröffentlicht: (2026)
von: Chen, Dongyang, et al.
Veröffentlicht: (2026)
OneThinker: All-in-one Reasoning Model for Image and Video
von: Feng, Kaituo, et al.
Veröffentlicht: (2025)
von: Feng, Kaituo, et al.
Veröffentlicht: (2025)
SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward
von: Fan, Kaixuan, et al.
Veröffentlicht: (2025)
von: Fan, Kaixuan, et al.
Veröffentlicht: (2025)
Distill Video Datasets into Images
von: Zhao, Zhenghao, et al.
Veröffentlicht: (2025)
von: Zhao, Zhenghao, et al.
Veröffentlicht: (2025)
Video-R1: Reinforcing Video Reasoning in MLLMs
von: Feng, Kaituo, et al.
Veröffentlicht: (2025)
von: Feng, Kaituo, et al.
Veröffentlicht: (2025)
OpenGame: Open Agentic Coding for Games
von: Jiang, Yilei, et al.
Veröffentlicht: (2026)
von: Jiang, Yilei, et al.
Veröffentlicht: (2026)
Uni-Edit: Intelligent Editing Is A General Task For Unified Model Tuning
von: Zheng, Dian, et al.
Veröffentlicht: (2026)
von: Zheng, Dian, et al.
Veröffentlicht: (2026)
AdaGen: Learning Adaptive Policy for Image Synthesis
von: Ni, Zanlin, et al.
Veröffentlicht: (2026)
von: Ni, Zanlin, et al.
Veröffentlicht: (2026)
Uni-AdaFocus: Spatial-temporal Dynamic Computation for Video Recognition
von: Wang, Yulin, et al.
Veröffentlicht: (2024)
von: Wang, Yulin, et al.
Veröffentlicht: (2024)
AdaSpark: Adaptive Sparsity for Efficient Long-Video Understanding
von: Li, Handong, et al.
Veröffentlicht: (2026)
von: Li, Handong, et al.
Veröffentlicht: (2026)
Vision-EKIPL: External Knowledge-Infused Policy Learning for Visual Reasoning
von: Wang, Chaoyang, et al.
Veröffentlicht: (2025)
von: Wang, Chaoyang, et al.
Veröffentlicht: (2025)
Fira: Can We Achieve Full-rank Training of LLMs Under Low-rank Constraint?
von: Chen, Xi, et al.
Veröffentlicht: (2024)
von: Chen, Xi, et al.
Veröffentlicht: (2024)
Attend Locally, Remember Linearly: Linear Attention as Cross-Frame Memory for Autoregressive Video Diffusion
von: Li, Kunyang, et al.
Veröffentlicht: (2026)
von: Li, Kunyang, et al.
Veröffentlicht: (2026)
AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation
von: Ni, Zanlin, et al.
Veröffentlicht: (2024)
von: Ni, Zanlin, et al.
Veröffentlicht: (2024)
From Web to Pixels: Bringing Agentic Search into Visual Perception
von: Yang, Bokang, et al.
Veröffentlicht: (2026)
von: Yang, Bokang, et al.
Veröffentlicht: (2026)
Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents
von: Zhang, Kaituo, et al.
Veröffentlicht: (2026)
von: Zhang, Kaituo, et al.
Veröffentlicht: (2026)
PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache
von: Li, Kunyang, et al.
Veröffentlicht: (2026)
von: Li, Kunyang, et al.
Veröffentlicht: (2026)
AdaMARP: An Adaptive Multi-Agent Interaction Framework for General Immersive Role-Playing
von: Xu, Zhenhua, et al.
Veröffentlicht: (2026)
von: Xu, Zhenhua, et al.
Veröffentlicht: (2026)
Learning to Generate Parameters of ConvNets for Unseen Image Data
von: Wang, Shiye, et al.
Veröffentlicht: (2023)
von: Wang, Shiye, et al.
Veröffentlicht: (2023)
AdaDecode: Accelerating LLM Decoding with Adaptive Layer Parallelism
von: Wei, Zhepei, et al.
Veröffentlicht: (2025)
von: Wei, Zhepei, et al.
Veröffentlicht: (2025)
AdaMSS: Adaptive Multi-Modality Segmentation-to-Survival Learning for Survival Outcome Prediction from PET/CT Images
von: Meng, Mingyuan, et al.
Veröffentlicht: (2023)
von: Meng, Mingyuan, et al.
Veröffentlicht: (2023)
ParaVT: Taming the Tool Prior Paradox for Parallel Tool Use in Agentic Video Reinforcement Learning
von: Yang, Zuhao, et al.
Veröffentlicht: (2026)
von: Yang, Zuhao, et al.
Veröffentlicht: (2026)
Dataset Quantization with Active Learning based Adaptive Sampling
von: Zhao, Zhenghao, et al.
Veröffentlicht: (2024)
von: Zhao, Zhenghao, et al.
Veröffentlicht: (2024)
AdaTP: Attention-Debiased Token Pruning for Video Large Language Models
von: Sun, Fengyuan, et al.
Veröffentlicht: (2025)
von: Sun, Fengyuan, et al.
Veröffentlicht: (2025)
Ada3Drift: Adaptive Training-Time Drifting for One-Step 3D Visuomotor Robotic Manipulation
von: Xu, Chongyang, et al.
Veröffentlicht: (2026)
von: Xu, Chongyang, et al.
Veröffentlicht: (2026)
Ada-FCN: Adaptive Frequency-Coupled Network for fMRI-Based Brain Disorder Classification
von: Xun, Yue, et al.
Veröffentlicht: (2025)
von: Xun, Yue, et al.
Veröffentlicht: (2025)
AdaSwitch: Balancing Exploration and Guidance in Knowledge Distillation via Adaptive Switching
von: Peng, Jingyu, et al.
Veröffentlicht: (2025)
von: Peng, Jingyu, et al.
Veröffentlicht: (2025)
AdaVid: Adaptive Video-Language Pretraining
von: Patel, Chaitanya, et al.
Veröffentlicht: (2025)
von: Patel, Chaitanya, et al.
Veröffentlicht: (2025)
AdaReasoner: Adaptive Reasoning Enables More Flexible Thinking in Large Language Models
von: Wang, Xiangqi, et al.
Veröffentlicht: (2025)
von: Wang, Xiangqi, et al.
Veröffentlicht: (2025)
AdaOcc: Adaptive-Resolution Occupancy Prediction
von: Chen, Chao, et al.
Veröffentlicht: (2024)
von: Chen, Chao, et al.
Veröffentlicht: (2024)
On minimal 3-folds with $K^3\geq 86$
von: Chen, Meng, et al.
Veröffentlicht: (2025)
von: Chen, Meng, et al.
Veröffentlicht: (2025)
MACRO: Advancing Multi-Reference Image Generation with Structured Long-Context Data
von: Chen, Zhekai, et al.
Veröffentlicht: (2026)
von: Chen, Zhekai, et al.
Veröffentlicht: (2026)
LoLiSRFlow: Joint Single Image Low-light Enhancement and Super-resolution via Cross-scale Transformer-based Conditional Flow
von: Yue, Ziyu, et al.
Veröffentlicht: (2024)
von: Yue, Ziyu, et al.
Veröffentlicht: (2024)
EditThinker: Unlocking Iterative Reasoning for Any Image Editor
von: Li, Hongyu, et al.
Veröffentlicht: (2025)
von: Li, Hongyu, et al.
Veröffentlicht: (2025)
AIA: Rethinking Architecture Decoupling Strategy In Unified Multimodal Model
von: Zheng, Dian, et al.
Veröffentlicht: (2025)
von: Zheng, Dian, et al.
Veröffentlicht: (2025)
Adaptive Spiking Neurons for Vision and Language Modeling
von: Zhou, Chenlin, et al.
Veröffentlicht: (2026)
von: Zhou, Chenlin, et al.
Veröffentlicht: (2026)
A Survey of Token Compression for Efficient Multimodal Large Language Models
von: Shao, Kele, et al.
Veröffentlicht: (2025)
von: Shao, Kele, et al.
Veröffentlicht: (2025)
Ähnliche Einträge
-
Exploring Reasoning Reward Model for Agents
von: Fan, Kaixuan, et al.
Veröffentlicht: (2026) -
VLA-Thinker: Boosting Vision-Language-Action Models through Thinking-with-Image Reasoning
von: Wang, Chaoyang, et al.
Veröffentlicht: (2026) -
Gen-Searcher: Reinforcing Agentic Search for Image Generation
von: Feng, Kaituo, et al.
Veröffentlicht: (2026) -
V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval
von: Chen, Dongyang, et al.
Veröffentlicht: (2026) -
OneThinker: All-in-one Reasoning Model for Image and Video
von: Feng, Kaituo, et al.
Veröffentlicht: (2025)