:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Li, Yifei, Niu, Junbo, Miao, Ziyang, Ge, Chunjiang, Zhou, Yuanhang, He, Qihao, Dong, Xiaoyi, Duan, Haodong, Ding, Shuangrui, Qian, Rui, Zhang, Pan, Zang, Yuhang, Cao, Yuhang, He, Conghui, Wang, Jiaqi
Format:	Preprint
Publié:	2025
Sujets:	Computer Vision and Pattern Recognition Artificial Intelligence
Accès en ligne:	https://arxiv.org/abs/2501.05510
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

2nd Place Report of MOSEv2 Challenge 2025: Concept Guided Video Object Segmentation via SeC
par: Zhang, Zhixiong, et autres
Publié: (2025)

Streaming Long Video Understanding with Large Language Models
par: Qian, Rui, et autres
Publié: (2024)

Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction
par: Qian, Rui, et autres
Publié: (2025)

Advancing Complex Video Object Segmentation via Progressive Concept Construction
par: Zhang, Zhixiong, et autres
Publié: (2025)

Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition
par: Dong, Yuhao, et autres
Publié: (2026)

SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree
par: Ding, Shuangrui, et autres
Publié: (2024)

MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models
par: Liu, Ziyu, et autres
Publié: (2024)

Think Visually, Reason Textually: Vision-Language Synergy in ARC
par: Zhang, Beichen, et autres
Publié: (2025)

VideoRoPE: What Makes for Good Video Rotary Position Embedding?
par: Wei, Xilin, et autres
Publié: (2025)

Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning
par: Liu, Yuhong, et autres
Publié: (2025)

ByTheWay: Boost Your Text-to-Video Generation Model to Higher Quality in a Training-free Way
par: Bu, Jiazi, et autres
Publié: (2024)

PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction
par: Xing, Long, et autres
Publié: (2024)

InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions
par: Zhang, Pan, et autres
Publié: (2024)

Native Visual Understanding: Resolving Resolution Dilemmas in Vision-Language Models
par: Niu, Junbo, et autres
Publié: (2025)

SPARK: Synergistic Policy And Reward Co-Evolving Framework
par: Liu, Ziyu, et autres
Publié: (2025)

Visual-RFT: Visual Reinforcement Fine-Tuning
par: Liu, Ziyu, et autres
Publié: (2025)

SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation
par: Liu, Zihan, et autres
Publié: (2025)

ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning
par: Ding, Shengyuan, et autres
Publié: (2025)

ShareGPT4Video: Improving Video Understanding and Generation with Better Captions
par: Chen, Lin, et autres
Publié: (2024)

Visual Agentic Reinforcement Fine-Tuning
par: Liu, Ziyu, et autres
Publié: (2025)

BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning
par: Zhang, Beichen, et autres
Publié: (2025)

Light-A-Video: Training-free Video Relighting via Progressive Light Fusion
par: Zhou, Yujie, et autres
Publié: (2025)

MM-IFEngine: Towards Multimodal Instruction Following
par: Ding, Shengyuan, et autres
Publié: (2025)

Visual Self-Refine: A Pixel-Guided Paradigm for Accurate Chart Parsing
par: Li, Jinsong, et autres
Publié: (2026)

Beyond Fixed: Training-Free Variable-Length Denoising for Diffusion Large Language Models
par: Li, Jinsong, et autres
Publié: (2025)

Towards Storage-Efficient Visual Document Retrieval: An Empirical Study on Reducing Patch-Level Embeddings
par: Ma, Yubo, et autres
Publié: (2025)

Long-CLIP: Unlocking the Long-Text Capability of CLIP
par: Zhang, Beichen, et autres
Publié: (2024)

STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence
par: Liu, Zihan, et autres
Publié: (2025)

MotionClone: Training-Free Motion Cloning for Controllable Video Generation
par: Ling, Pengyang, et autres
Publié: (2024)

ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing
par: Xing, Long, et autres
Publié: (2025)

SongComposer: A Large Language Model for Lyric and Melody Generation in Song Composition
par: Ding, Shuangrui, et autres
Publié: (2024)

WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation
par: Ding, Shuangrui, et autres
Publié: (2026)

VideoCompressa: Data-Efficient Video Understanding via Joint Temporal Compression and Spatial Reconstruction
par: Wang, Shaobo, et autres
Publié: (2025)

InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model
par: Zang, Yuhang, et autres
Publié: (2025)

SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience
par: Sun, Zeyi, et autres
Publié: (2025)

SIM-CoT: Supervised Implicit Chain-of-Thought
par: Wei, Xilin, et autres
Publié: (2025)

Unified Reward Model for Multimodal Understanding and Generation
par: Wang, Yibin, et autres
Publié: (2025)

Unified Scene Representation and Reconstruction for 3D Large Language Models
par: Chu, Tao, et autres
Publié: (2024)

Are We on the Right Way for Evaluating Large Vision-Language Models?
par: Chen, Lin, et autres
Publié: (2024)

SetCon: Towards Open-Ended Referring Segmentation via Set-Level Concept Prediction
par: Zhang, Zhixiong, et autres
Publié: (2026)