:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Gou, Chenhui, Chen, Zilong, Wang, Zeyu, Li, Feng, Zhu, Deyao, Duan, Zicheng, Li, Kunchang, Deng, Chaorui, Yuan, Hongyi, Fan, Haoqi, Xie, Cihang, Cai, Jianfei, Rezatofighi, Hamid
Format:	Preprint
Publié:	2025
Sujets:	Computer Vision and Pattern Recognition
Accès en ligne:	https://arxiv.org/abs/2511.20573
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

LightFusion: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation
par: Wang, Zeyu, et autres
Publié: (2025)

Causal Diffusion Transformers for Generative Modeling
par: Deng, Chaorui, et autres
Publié: (2024)

Emerging Properties in Unified Multimodal Pretraining
par: Deng, Chaorui, et autres
Publié: (2025)

How Well Can Vision Language Models See Image Details?
par: Gou, Chenhui, et autres
Publié: (2024)

An Empirical Study on How Video-LLMs Answer Video Questions
par: Gou, Chenhui, et autres
Publié: (2025)

DrVideo: Document Retrieval Based Long Video Understanding
par: Ma, Ziyu, et autres
Publié: (2024)

JRDB-PanoTrack: An Open-world Panoptic Segmentation and Tracking Robotic Dataset in Crowded Human Environments
par: Le, Duy-Tho, et autres
Publié: (2024)

When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought
par: Zhou, Yiyang, et autres
Publié: (2025)

VQA$^2$: Visual Question Answering for Video Quality Assessment
par: Jia, Ziheng, et autres
Publié: (2024)

GeReA: Question-Aware Prompt Captions for Knowledge-based Visual Question Answering
par: Ma, Ziyu, et autres
Publié: (2024)

VIHD: Visual Intervention-based Hallucination Detection for Medical Visual Question Answering
par: Chen, Jiayi, et autres
Publié: (2026)

Marginalized Generalized IoU (MGIoU): A Unified Objective Function for Optimizing Any Convex Parametric Shapes
par: Le, Duy-Tho, et autres
Publié: (2025)

DifFUSER: Diffusion Model for Robust Multi-Sensor Fusion in 3D Object Detection and BEV Segmentation
par: Le, Duy-Tho, et autres
Publié: (2024)

SUPQA: LLM‐based Geo‐Visualization for Subjective Urban Performance Question‐Answering
par: Haiwen Huang, et autres
Publié: (2025)

ViM-VQ: Efficient Post-Training Vector Quantization for Visual Mamba
par: Deng, Juncan, et autres
Publié: (2025)

Mobile-VideoGPT: Fast and Accurate Model for Mobile Video Understanding
par: Shaker, Abdelrahman, et autres
Publié: (2025)

ASAP-Textured Gaussians: Enhancing Textured Gaussians with Adaptive Sampling and Anisotropic Parameterization
par: Wei, Meng, et autres
Publié: (2025)

Normal-GS: 3D Gaussian Splatting with Normal-Involved Rendering
par: Wei, Meng, et autres
Publié: (2024)

JRDB-Reasoning: A Difficulty-Graded Benchmark for Visual Reasoning in Robotics
par: Jahangard, Simindokht, et autres
Publié: (2025)

LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models
par: Duan, Zicheng, et autres
Publié: (2026)

A Multi-Modal Neuro-Symbolic Approach for Spatial Reasoning-Based Visual Grounding in Robotics
par: Jahangard, Simindokht, et autres
Publié: (2025)

HYDRA: A Hyper Agent for Dynamic Compositional Visual Reasoning
par: Ke, Fucai, et autres
Publié: (2024)

Goal-Oriented Semantic Communication for Wireless Visual Question Answering
par: Liu, Sige, et autres
Publié: (2024)

OWLViz: An Open-World Benchmark for Visual Question Answering
par: Nguyen, Thuy, et autres
Publié: (2025)

Improving Visual Perception of a Social Robot for Controlled and In-the-wild Human-robot Interaction
par: Zhong, Wangjie, et autres
Publié: (2024)

Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering
par: Xue, Junxiao, et autres
Publié: (2024)

Questioning the Stability of Visual Question Answering
par: Rosenfeld, Amir, et autres
Publié: (2025)

Step-CoT: Stepwise Visual Chain-of-Thought for Medical Visual Question Answering
par: Fan, Lin, et autres
Publié: (2026)

Multimodal Rationales for Explainable Visual Question Answering
par: Li, Kun, et autres
Publié: (2024)

Object Attribute Matters in Visual Question Answering
par: Li, Peize, et autres
Publié: (2023)

Selectively Answering Visual Questions
par: Eisenschlos, Julian Martin, et autres
Publié: (2024)

Improving Few-Shot Change Detection Visual Question Answering via Decision-Ambiguity-guided Reinforcement Fine-Tuning
par: Dong, Fuyu, et autres
Publié: (2025)

Multi-Sourced Compositional Generalization in Visual Question Answering
par: Li, Chuanhao, et autres
Publié: (2025)

Exploring Diverse Methods in Visual Question Answering
par: Li, Panfeng, et autres
Publié: (2024)

Double Visual Defense: Adversarial Pre-training and Instruction Tuning for Improving Vision-Language Model Robustness
par: Wang, Zeyu, et autres
Publié: (2025)

EZIGen: Enhancing zero-shot personalized image generation with precise subject encoding and decoupled guidance
par: Duan, Zicheng, et autres
Publié: (2024)

Computed Tomography Visual Question Answering with Cross-modal Feature Graphing
par: Tian, Yuanhe, et autres
Publié: (2025)

Object Retrieval for Visual Question Answering with Outside Knowledge
par: Kan, Shichao, et autres
Publié: (2024)

MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization
par: Li, Siyuan, et autres
Publié: (2025)

Visually Interpretable Subtask Reasoning for Visual Question Answering
par: Cheng, Yu, et autres
Publié: (2025)