Enregistré dans:
| Auteurs principaux: | Gou, Chenhui, Chen, Zilong, Wang, Zeyu, Li, Feng, Zhu, Deyao, Duan, Zicheng, Li, Kunchang, Deng, Chaorui, Yuan, Hongyi, Fan, Haoqi, Xie, Cihang, Cai, Jianfei, Rezatofighi, Hamid |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2511.20573 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
LightFusion: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation
par: Wang, Zeyu, et autres
Publié: (2025)
par: Wang, Zeyu, et autres
Publié: (2025)
Causal Diffusion Transformers for Generative Modeling
par: Deng, Chaorui, et autres
Publié: (2024)
par: Deng, Chaorui, et autres
Publié: (2024)
Emerging Properties in Unified Multimodal Pretraining
par: Deng, Chaorui, et autres
Publié: (2025)
par: Deng, Chaorui, et autres
Publié: (2025)
How Well Can Vision Language Models See Image Details?
par: Gou, Chenhui, et autres
Publié: (2024)
par: Gou, Chenhui, et autres
Publié: (2024)
An Empirical Study on How Video-LLMs Answer Video Questions
par: Gou, Chenhui, et autres
Publié: (2025)
par: Gou, Chenhui, et autres
Publié: (2025)
DrVideo: Document Retrieval Based Long Video Understanding
par: Ma, Ziyu, et autres
Publié: (2024)
par: Ma, Ziyu, et autres
Publié: (2024)
JRDB-PanoTrack: An Open-world Panoptic Segmentation and Tracking Robotic Dataset in Crowded Human Environments
par: Le, Duy-Tho, et autres
Publié: (2024)
par: Le, Duy-Tho, et autres
Publié: (2024)
When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought
par: Zhou, Yiyang, et autres
Publié: (2025)
par: Zhou, Yiyang, et autres
Publié: (2025)
VQA$^2$: Visual Question Answering for Video Quality Assessment
par: Jia, Ziheng, et autres
Publié: (2024)
par: Jia, Ziheng, et autres
Publié: (2024)
GeReA: Question-Aware Prompt Captions for Knowledge-based Visual Question Answering
par: Ma, Ziyu, et autres
Publié: (2024)
par: Ma, Ziyu, et autres
Publié: (2024)
VIHD: Visual Intervention-based Hallucination Detection for Medical Visual Question Answering
par: Chen, Jiayi, et autres
Publié: (2026)
par: Chen, Jiayi, et autres
Publié: (2026)
Marginalized Generalized IoU (MGIoU): A Unified Objective Function for Optimizing Any Convex Parametric Shapes
par: Le, Duy-Tho, et autres
Publié: (2025)
par: Le, Duy-Tho, et autres
Publié: (2025)
DifFUSER: Diffusion Model for Robust Multi-Sensor Fusion in 3D Object Detection and BEV Segmentation
par: Le, Duy-Tho, et autres
Publié: (2024)
par: Le, Duy-Tho, et autres
Publié: (2024)
SUPQA: LLM‐based Geo‐Visualization for Subjective Urban Performance Question‐Answering
par: Haiwen Huang, et autres
Publié: (2025)
par: Haiwen Huang, et autres
Publié: (2025)
ViM-VQ: Efficient Post-Training Vector Quantization for Visual Mamba
par: Deng, Juncan, et autres
Publié: (2025)
par: Deng, Juncan, et autres
Publié: (2025)
Mobile-VideoGPT: Fast and Accurate Model for Mobile Video Understanding
par: Shaker, Abdelrahman, et autres
Publié: (2025)
par: Shaker, Abdelrahman, et autres
Publié: (2025)
ASAP-Textured Gaussians: Enhancing Textured Gaussians with Adaptive Sampling and Anisotropic Parameterization
par: Wei, Meng, et autres
Publié: (2025)
par: Wei, Meng, et autres
Publié: (2025)
Normal-GS: 3D Gaussian Splatting with Normal-Involved Rendering
par: Wei, Meng, et autres
Publié: (2024)
par: Wei, Meng, et autres
Publié: (2024)
JRDB-Reasoning: A Difficulty-Graded Benchmark for Visual Reasoning in Robotics
par: Jahangard, Simindokht, et autres
Publié: (2025)
par: Jahangard, Simindokht, et autres
Publié: (2025)
LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models
par: Duan, Zicheng, et autres
Publié: (2026)
par: Duan, Zicheng, et autres
Publié: (2026)
A Multi-Modal Neuro-Symbolic Approach for Spatial Reasoning-Based Visual Grounding in Robotics
par: Jahangard, Simindokht, et autres
Publié: (2025)
par: Jahangard, Simindokht, et autres
Publié: (2025)
HYDRA: A Hyper Agent for Dynamic Compositional Visual Reasoning
par: Ke, Fucai, et autres
Publié: (2024)
par: Ke, Fucai, et autres
Publié: (2024)
Goal-Oriented Semantic Communication for Wireless Visual Question Answering
par: Liu, Sige, et autres
Publié: (2024)
par: Liu, Sige, et autres
Publié: (2024)
OWLViz: An Open-World Benchmark for Visual Question Answering
par: Nguyen, Thuy, et autres
Publié: (2025)
par: Nguyen, Thuy, et autres
Publié: (2025)
Improving Visual Perception of a Social Robot for Controlled and In-the-wild Human-robot Interaction
par: Zhong, Wangjie, et autres
Publié: (2024)
par: Zhong, Wangjie, et autres
Publié: (2024)
Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering
par: Xue, Junxiao, et autres
Publié: (2024)
par: Xue, Junxiao, et autres
Publié: (2024)
Questioning the Stability of Visual Question Answering
par: Rosenfeld, Amir, et autres
Publié: (2025)
par: Rosenfeld, Amir, et autres
Publié: (2025)
Step-CoT: Stepwise Visual Chain-of-Thought for Medical Visual Question Answering
par: Fan, Lin, et autres
Publié: (2026)
par: Fan, Lin, et autres
Publié: (2026)
Multimodal Rationales for Explainable Visual Question Answering
par: Li, Kun, et autres
Publié: (2024)
par: Li, Kun, et autres
Publié: (2024)
Object Attribute Matters in Visual Question Answering
par: Li, Peize, et autres
Publié: (2023)
par: Li, Peize, et autres
Publié: (2023)
Selectively Answering Visual Questions
par: Eisenschlos, Julian Martin, et autres
Publié: (2024)
par: Eisenschlos, Julian Martin, et autres
Publié: (2024)
Improving Few-Shot Change Detection Visual Question Answering via Decision-Ambiguity-guided Reinforcement Fine-Tuning
par: Dong, Fuyu, et autres
Publié: (2025)
par: Dong, Fuyu, et autres
Publié: (2025)
Multi-Sourced Compositional Generalization in Visual Question Answering
par: Li, Chuanhao, et autres
Publié: (2025)
par: Li, Chuanhao, et autres
Publié: (2025)
Exploring Diverse Methods in Visual Question Answering
par: Li, Panfeng, et autres
Publié: (2024)
par: Li, Panfeng, et autres
Publié: (2024)
Double Visual Defense: Adversarial Pre-training and Instruction Tuning for Improving Vision-Language Model Robustness
par: Wang, Zeyu, et autres
Publié: (2025)
par: Wang, Zeyu, et autres
Publié: (2025)
EZIGen: Enhancing zero-shot personalized image generation with precise subject encoding and decoupled guidance
par: Duan, Zicheng, et autres
Publié: (2024)
par: Duan, Zicheng, et autres
Publié: (2024)
Computed Tomography Visual Question Answering with Cross-modal Feature Graphing
par: Tian, Yuanhe, et autres
Publié: (2025)
par: Tian, Yuanhe, et autres
Publié: (2025)
Object Retrieval for Visual Question Answering with Outside Knowledge
par: Kan, Shichao, et autres
Publié: (2024)
par: Kan, Shichao, et autres
Publié: (2024)
MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization
par: Li, Siyuan, et autres
Publié: (2025)
par: Li, Siyuan, et autres
Publié: (2025)
Visually Interpretable Subtask Reasoning for Visual Question Answering
par: Cheng, Yu, et autres
Publié: (2025)
par: Cheng, Yu, et autres
Publié: (2025)
Documents similaires
-
LightFusion: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation
par: Wang, Zeyu, et autres
Publié: (2025) -
Causal Diffusion Transformers for Generative Modeling
par: Deng, Chaorui, et autres
Publié: (2024) -
Emerging Properties in Unified Multimodal Pretraining
par: Deng, Chaorui, et autres
Publié: (2025) -
How Well Can Vision Language Models See Image Details?
par: Gou, Chenhui, et autres
Publié: (2024) -
An Empirical Study on How Video-LLMs Answer Video Questions
par: Gou, Chenhui, et autres
Publié: (2025)