Enregistré dans:
| Auteurs principaux: | Li, Yifei, Niu, Junbo, Miao, Ziyang, Ge, Chunjiang, Zhou, Yuanhang, He, Qihao, Dong, Xiaoyi, Duan, Haodong, Ding, Shuangrui, Qian, Rui, Zhang, Pan, Zang, Yuhang, Cao, Yuhang, He, Conghui, Wang, Jiaqi |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2501.05510 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
2nd Place Report of MOSEv2 Challenge 2025: Concept Guided Video Object Segmentation via SeC
par: Zhang, Zhixiong, et autres
Publié: (2025)
par: Zhang, Zhixiong, et autres
Publié: (2025)
Streaming Long Video Understanding with Large Language Models
par: Qian, Rui, et autres
Publié: (2024)
par: Qian, Rui, et autres
Publié: (2024)
Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction
par: Qian, Rui, et autres
Publié: (2025)
par: Qian, Rui, et autres
Publié: (2025)
Advancing Complex Video Object Segmentation via Progressive Concept Construction
par: Zhang, Zhixiong, et autres
Publié: (2025)
par: Zhang, Zhixiong, et autres
Publié: (2025)
Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition
par: Dong, Yuhao, et autres
Publié: (2026)
par: Dong, Yuhao, et autres
Publié: (2026)
SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree
par: Ding, Shuangrui, et autres
Publié: (2024)
par: Ding, Shuangrui, et autres
Publié: (2024)
MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models
par: Liu, Ziyu, et autres
Publié: (2024)
par: Liu, Ziyu, et autres
Publié: (2024)
Think Visually, Reason Textually: Vision-Language Synergy in ARC
par: Zhang, Beichen, et autres
Publié: (2025)
par: Zhang, Beichen, et autres
Publié: (2025)
VideoRoPE: What Makes for Good Video Rotary Position Embedding?
par: Wei, Xilin, et autres
Publié: (2025)
par: Wei, Xilin, et autres
Publié: (2025)
Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning
par: Liu, Yuhong, et autres
Publié: (2025)
par: Liu, Yuhong, et autres
Publié: (2025)
ByTheWay: Boost Your Text-to-Video Generation Model to Higher Quality in a Training-free Way
par: Bu, Jiazi, et autres
Publié: (2024)
par: Bu, Jiazi, et autres
Publié: (2024)
PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction
par: Xing, Long, et autres
Publié: (2024)
par: Xing, Long, et autres
Publié: (2024)
InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions
par: Zhang, Pan, et autres
Publié: (2024)
par: Zhang, Pan, et autres
Publié: (2024)
Native Visual Understanding: Resolving Resolution Dilemmas in Vision-Language Models
par: Niu, Junbo, et autres
Publié: (2025)
par: Niu, Junbo, et autres
Publié: (2025)
SPARK: Synergistic Policy And Reward Co-Evolving Framework
par: Liu, Ziyu, et autres
Publié: (2025)
par: Liu, Ziyu, et autres
Publié: (2025)
Visual-RFT: Visual Reinforcement Fine-Tuning
par: Liu, Ziyu, et autres
Publié: (2025)
par: Liu, Ziyu, et autres
Publié: (2025)
SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation
par: Liu, Zihan, et autres
Publié: (2025)
par: Liu, Zihan, et autres
Publié: (2025)
ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning
par: Ding, Shengyuan, et autres
Publié: (2025)
par: Ding, Shengyuan, et autres
Publié: (2025)
ShareGPT4Video: Improving Video Understanding and Generation with Better Captions
par: Chen, Lin, et autres
Publié: (2024)
par: Chen, Lin, et autres
Publié: (2024)
Visual Agentic Reinforcement Fine-Tuning
par: Liu, Ziyu, et autres
Publié: (2025)
par: Liu, Ziyu, et autres
Publié: (2025)
BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning
par: Zhang, Beichen, et autres
Publié: (2025)
par: Zhang, Beichen, et autres
Publié: (2025)
Light-A-Video: Training-free Video Relighting via Progressive Light Fusion
par: Zhou, Yujie, et autres
Publié: (2025)
par: Zhou, Yujie, et autres
Publié: (2025)
MM-IFEngine: Towards Multimodal Instruction Following
par: Ding, Shengyuan, et autres
Publié: (2025)
par: Ding, Shengyuan, et autres
Publié: (2025)
Visual Self-Refine: A Pixel-Guided Paradigm for Accurate Chart Parsing
par: Li, Jinsong, et autres
Publié: (2026)
par: Li, Jinsong, et autres
Publié: (2026)
Beyond Fixed: Training-Free Variable-Length Denoising for Diffusion Large Language Models
par: Li, Jinsong, et autres
Publié: (2025)
par: Li, Jinsong, et autres
Publié: (2025)
Towards Storage-Efficient Visual Document Retrieval: An Empirical Study on Reducing Patch-Level Embeddings
par: Ma, Yubo, et autres
Publié: (2025)
par: Ma, Yubo, et autres
Publié: (2025)
Long-CLIP: Unlocking the Long-Text Capability of CLIP
par: Zhang, Beichen, et autres
Publié: (2024)
par: Zhang, Beichen, et autres
Publié: (2024)
STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence
par: Liu, Zihan, et autres
Publié: (2025)
par: Liu, Zihan, et autres
Publié: (2025)
MotionClone: Training-Free Motion Cloning for Controllable Video Generation
par: Ling, Pengyang, et autres
Publié: (2024)
par: Ling, Pengyang, et autres
Publié: (2024)
ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing
par: Xing, Long, et autres
Publié: (2025)
par: Xing, Long, et autres
Publié: (2025)
SongComposer: A Large Language Model for Lyric and Melody Generation in Song Composition
par: Ding, Shuangrui, et autres
Publié: (2024)
par: Ding, Shuangrui, et autres
Publié: (2024)
WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation
par: Ding, Shuangrui, et autres
Publié: (2026)
par: Ding, Shuangrui, et autres
Publié: (2026)
VideoCompressa: Data-Efficient Video Understanding via Joint Temporal Compression and Spatial Reconstruction
par: Wang, Shaobo, et autres
Publié: (2025)
par: Wang, Shaobo, et autres
Publié: (2025)
InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model
par: Zang, Yuhang, et autres
Publié: (2025)
par: Zang, Yuhang, et autres
Publié: (2025)
SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience
par: Sun, Zeyi, et autres
Publié: (2025)
par: Sun, Zeyi, et autres
Publié: (2025)
SIM-CoT: Supervised Implicit Chain-of-Thought
par: Wei, Xilin, et autres
Publié: (2025)
par: Wei, Xilin, et autres
Publié: (2025)
Unified Reward Model for Multimodal Understanding and Generation
par: Wang, Yibin, et autres
Publié: (2025)
par: Wang, Yibin, et autres
Publié: (2025)
Unified Scene Representation and Reconstruction for 3D Large Language Models
par: Chu, Tao, et autres
Publié: (2024)
par: Chu, Tao, et autres
Publié: (2024)
Are We on the Right Way for Evaluating Large Vision-Language Models?
par: Chen, Lin, et autres
Publié: (2024)
par: Chen, Lin, et autres
Publié: (2024)
SetCon: Towards Open-Ended Referring Segmentation via Set-Level Concept Prediction
par: Zhang, Zhixiong, et autres
Publié: (2026)
par: Zhang, Zhixiong, et autres
Publié: (2026)
Documents similaires
-
2nd Place Report of MOSEv2 Challenge 2025: Concept Guided Video Object Segmentation via SeC
par: Zhang, Zhixiong, et autres
Publié: (2025) -
Streaming Long Video Understanding with Large Language Models
par: Qian, Rui, et autres
Publié: (2024) -
Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction
par: Qian, Rui, et autres
Publié: (2025) -
Advancing Complex Video Object Segmentation via Progressive Concept Construction
par: Zhang, Zhixiong, et autres
Publié: (2025) -
Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition
par: Dong, Yuhao, et autres
Publié: (2026)