:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Dong, Fuyu, Li, Ke, Wang, Di, Luo, Nan, Zhang, Yiming, Li, Kaiyu, Yang, Jianfei, Wang, Quan
Format:	Preprint
Publié:	2025
Sujets:	Computer Vision and Pattern Recognition
Accès en ligne:	https://arxiv.org/abs/2512.24591
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Show Me What and Where has Changed? Question Answering and Grounding for Remote Sensing Change Detection
par: Li, Ke, et autres
Publié: (2024)

RSVG-ZeroOV: Exploring a Training-Free Framework for Zero-Shot Open-Vocabulary Visual Grounding in Remote Sensing Images
par: Li, Ke, et autres
Publié: (2025)

Fine-Grained Knowledge Structuring and Retrieval for Visual Question Answering
par: Zhang, Zhengxuan, et autres
Publié: (2025)

Investigating Prompting Techniques for Zero- and Few-Shot Visual Question Answering
par: Awal, Rabiul, et autres
Publié: (2023)

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering
par: Gupta, Akash, et autres
Publié: (2025)

Geo-R1: Improving Few-Shot Geospatial Referring Expression Understanding with Reinforcement Fine-Tuning
par: Zhang, Zilun, et autres
Publié: (2025)

FlexKBQA: A Flexible LLM-Powered Framework for Few-Shot Knowledge Base Question Answering
par: Li, Zhenyu, et autres
Publié: (2023)

Mind the Ambiguity: Aleatoric Uncertainty Quantification in LLMs for Safe Medical Question Answering
par: Liu, Yaokun, et autres
Publié: (2026)

Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering
par: Xue, Junxiao, et autres
Publié: (2024)

Eliminating Feature Ambiguity for Few-Shot Segmentation
par: Xu, Qianxiong, et autres
Publié: (2024)

Active Few-Shot Fine-Tuning
par: Hübotter, Jonas, et autres
Publié: (2024)

GeReA: Question-Aware Prompt Captions for Knowledge-based Visual Question Answering
par: Ma, Ziyu, et autres
Publié: (2024)

Attention-guided Evidence Grounding for Spoken Question Answering
par: Yang, Ke, et autres
Publié: (2026)

A$^2$Search: Ambiguity-Aware Question Answering with Reinforcement Learning
par: Zhang, Fengji, et autres
Publié: (2025)

Rationale-guided Prompting for Knowledge-based Visual Question Answering
par: Hu, Zhongjian, et autres
Publié: (2024)

Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering
par: Li, Gang, et autres
Publié: (2025)

Dynamic Few-Shot Learning for Knowledge Graph Question Answering
par: D'Abramo, Jacopo, et autres
Publié: (2024)

In-Context Learning Distillation for Efficient Few-Shot Fine-Tuning
par: Duan, Yifei, et autres
Publié: (2024)

Visual-RFT: Visual Reinforcement Fine-Tuning
par: Liu, Ziyu, et autres
Publié: (2025)

VietMEAgent: Culturally-Aware Few-Shot Multimodal Explanation for Vietnamese Visual Question Answering
par: Nguyen, Hai-Dang, et autres
Publié: (2025)

Few-Shot Image Classification and Segmentation as Visual Question Answering Using Vision-Language Models
par: Meng, Tian, et autres
Publié: (2024)

VQ-VA World: Towards High-Quality Visual Question-Visual Answering
par: Gou, Chenhui, et autres
Publié: (2025)

Enhancing Scientific Visual Question Answering via Vision-Caption aware Supervised Fine-Tuning
par: Kapuriya, Janak, et autres
Publié: (2025)

Visual Agentic Reinforcement Fine-Tuning
par: Liu, Ziyu, et autres
Publié: (2025)

Acknowledging Focus Ambiguity in Visual Questions
par: Chen, Chongyan, et autres
Publié: (2025)

PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering
par: Zhang, Xiaoman, et autres
Publié: (2023)

Prompting-based Synthetic Data Generation for Few-Shot Question Answering
par: Schmidt, Maximilian, et autres
Publié: (2024)

Electrocardiogram-Language Model for Few-Shot Question Answering with Meta Learning
par: Tang, Jialu, et autres
Publié: (2024)

LLM Distillation for Efficient Few-Shot Multiple Choice Question Answering
par: Sutanto, Patrick, et autres
Publié: (2024)

VIHD: Visual Intervention-based Hallucination Detection for Medical Visual Question Answering
par: Chen, Jiayi, et autres
Publié: (2026)

60 Data Points are Sufficient to Fine-Tune LLMs for Question-Answering
par: Ye, Junjie, et autres
Publié: (2024)

CLEAR-KGQA: Clarification-Enhanced Ambiguity Resolution for Knowledge Graph Question Answering
par: Wen, Liqiang, et autres
Publié: (2025)

Goal-Oriented Semantic Communication for Wireless Visual Question Answering
par: Liu, Sige, et autres
Publié: (2024)

Question-Instructed Visual Descriptions for Zero-Shot Video Question Answering
par: Romero, David, et autres
Publié: (2024)

Weather-R1: Logically Consistent Reinforcement Fine-Tuning for Multimodal Reasoning in Meteorology
par: Wu, Kaiyu, et autres
Publié: (2026)

Enhancing Text Annotation through Rationale-Driven Collaborative Few-Shot Prompting
par: Wu, Jianfei, et autres
Publié: (2024)

MM-Prompt: Cross-Modal Prompt Tuning for Continual Visual Question Answering
par: Li, Xu, et autres
Publié: (2025)

Towards Fine-Grained Video Question Answering
par: Dai, Wei, et autres
Publié: (2025)

Few-Shot Data Synthesis for Open Domain Multi-Hop Question Answering
par: Chen, Mingda, et autres
Publié: (2023)

CogStream: Context-guided Streaming Video Question Answering
par: Zhao, Zicheng, et autres
Publié: (2025)