Enregistré dans:
| Auteurs principaux: | Dong, Fuyu, Li, Ke, Wang, Di, Luo, Nan, Zhang, Yiming, Li, Kaiyu, Yang, Jianfei, Wang, Quan |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2512.24591 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Show Me What and Where has Changed? Question Answering and Grounding for Remote Sensing Change Detection
par: Li, Ke, et autres
Publié: (2024)
par: Li, Ke, et autres
Publié: (2024)
RSVG-ZeroOV: Exploring a Training-Free Framework for Zero-Shot Open-Vocabulary Visual Grounding in Remote Sensing Images
par: Li, Ke, et autres
Publié: (2025)
par: Li, Ke, et autres
Publié: (2025)
Fine-Grained Knowledge Structuring and Retrieval for Visual Question Answering
par: Zhang, Zhengxuan, et autres
Publié: (2025)
par: Zhang, Zhengxuan, et autres
Publié: (2025)
Investigating Prompting Techniques for Zero- and Few-Shot Visual Question Answering
par: Awal, Rabiul, et autres
Publié: (2023)
par: Awal, Rabiul, et autres
Publié: (2023)
Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering
par: Gupta, Akash, et autres
Publié: (2025)
par: Gupta, Akash, et autres
Publié: (2025)
Geo-R1: Improving Few-Shot Geospatial Referring Expression Understanding with Reinforcement Fine-Tuning
par: Zhang, Zilun, et autres
Publié: (2025)
par: Zhang, Zilun, et autres
Publié: (2025)
FlexKBQA: A Flexible LLM-Powered Framework for Few-Shot Knowledge Base Question Answering
par: Li, Zhenyu, et autres
Publié: (2023)
par: Li, Zhenyu, et autres
Publié: (2023)
Mind the Ambiguity: Aleatoric Uncertainty Quantification in LLMs for Safe Medical Question Answering
par: Liu, Yaokun, et autres
Publié: (2026)
par: Liu, Yaokun, et autres
Publié: (2026)
Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering
par: Xue, Junxiao, et autres
Publié: (2024)
par: Xue, Junxiao, et autres
Publié: (2024)
Eliminating Feature Ambiguity for Few-Shot Segmentation
par: Xu, Qianxiong, et autres
Publié: (2024)
par: Xu, Qianxiong, et autres
Publié: (2024)
Active Few-Shot Fine-Tuning
par: Hübotter, Jonas, et autres
Publié: (2024)
par: Hübotter, Jonas, et autres
Publié: (2024)
GeReA: Question-Aware Prompt Captions for Knowledge-based Visual Question Answering
par: Ma, Ziyu, et autres
Publié: (2024)
par: Ma, Ziyu, et autres
Publié: (2024)
Attention-guided Evidence Grounding for Spoken Question Answering
par: Yang, Ke, et autres
Publié: (2026)
par: Yang, Ke, et autres
Publié: (2026)
A$^2$Search: Ambiguity-Aware Question Answering with Reinforcement Learning
par: Zhang, Fengji, et autres
Publié: (2025)
par: Zhang, Fengji, et autres
Publié: (2025)
Rationale-guided Prompting for Knowledge-based Visual Question Answering
par: Hu, Zhongjian, et autres
Publié: (2024)
par: Hu, Zhongjian, et autres
Publié: (2024)
Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering
par: Li, Gang, et autres
Publié: (2025)
par: Li, Gang, et autres
Publié: (2025)
Dynamic Few-Shot Learning for Knowledge Graph Question Answering
par: D'Abramo, Jacopo, et autres
Publié: (2024)
par: D'Abramo, Jacopo, et autres
Publié: (2024)
In-Context Learning Distillation for Efficient Few-Shot Fine-Tuning
par: Duan, Yifei, et autres
Publié: (2024)
par: Duan, Yifei, et autres
Publié: (2024)
Visual-RFT: Visual Reinforcement Fine-Tuning
par: Liu, Ziyu, et autres
Publié: (2025)
par: Liu, Ziyu, et autres
Publié: (2025)
VietMEAgent: Culturally-Aware Few-Shot Multimodal Explanation for Vietnamese Visual Question Answering
par: Nguyen, Hai-Dang, et autres
Publié: (2025)
par: Nguyen, Hai-Dang, et autres
Publié: (2025)
Few-Shot Image Classification and Segmentation as Visual Question Answering Using Vision-Language Models
par: Meng, Tian, et autres
Publié: (2024)
par: Meng, Tian, et autres
Publié: (2024)
VQ-VA World: Towards High-Quality Visual Question-Visual Answering
par: Gou, Chenhui, et autres
Publié: (2025)
par: Gou, Chenhui, et autres
Publié: (2025)
Enhancing Scientific Visual Question Answering via Vision-Caption aware Supervised Fine-Tuning
par: Kapuriya, Janak, et autres
Publié: (2025)
par: Kapuriya, Janak, et autres
Publié: (2025)
Visual Agentic Reinforcement Fine-Tuning
par: Liu, Ziyu, et autres
Publié: (2025)
par: Liu, Ziyu, et autres
Publié: (2025)
Acknowledging Focus Ambiguity in Visual Questions
par: Chen, Chongyan, et autres
Publié: (2025)
par: Chen, Chongyan, et autres
Publié: (2025)
PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering
par: Zhang, Xiaoman, et autres
Publié: (2023)
par: Zhang, Xiaoman, et autres
Publié: (2023)
Prompting-based Synthetic Data Generation for Few-Shot Question Answering
par: Schmidt, Maximilian, et autres
Publié: (2024)
par: Schmidt, Maximilian, et autres
Publié: (2024)
Electrocardiogram-Language Model for Few-Shot Question Answering with Meta Learning
par: Tang, Jialu, et autres
Publié: (2024)
par: Tang, Jialu, et autres
Publié: (2024)
LLM Distillation for Efficient Few-Shot Multiple Choice Question Answering
par: Sutanto, Patrick, et autres
Publié: (2024)
par: Sutanto, Patrick, et autres
Publié: (2024)
VIHD: Visual Intervention-based Hallucination Detection for Medical Visual Question Answering
par: Chen, Jiayi, et autres
Publié: (2026)
par: Chen, Jiayi, et autres
Publié: (2026)
60 Data Points are Sufficient to Fine-Tune LLMs for Question-Answering
par: Ye, Junjie, et autres
Publié: (2024)
par: Ye, Junjie, et autres
Publié: (2024)
CLEAR-KGQA: Clarification-Enhanced Ambiguity Resolution for Knowledge Graph Question Answering
par: Wen, Liqiang, et autres
Publié: (2025)
par: Wen, Liqiang, et autres
Publié: (2025)
Goal-Oriented Semantic Communication for Wireless Visual Question Answering
par: Liu, Sige, et autres
Publié: (2024)
par: Liu, Sige, et autres
Publié: (2024)
Question-Instructed Visual Descriptions for Zero-Shot Video Question Answering
par: Romero, David, et autres
Publié: (2024)
par: Romero, David, et autres
Publié: (2024)
Weather-R1: Logically Consistent Reinforcement Fine-Tuning for Multimodal Reasoning in Meteorology
par: Wu, Kaiyu, et autres
Publié: (2026)
par: Wu, Kaiyu, et autres
Publié: (2026)
Enhancing Text Annotation through Rationale-Driven Collaborative Few-Shot Prompting
par: Wu, Jianfei, et autres
Publié: (2024)
par: Wu, Jianfei, et autres
Publié: (2024)
MM-Prompt: Cross-Modal Prompt Tuning for Continual Visual Question Answering
par: Li, Xu, et autres
Publié: (2025)
par: Li, Xu, et autres
Publié: (2025)
Towards Fine-Grained Video Question Answering
par: Dai, Wei, et autres
Publié: (2025)
par: Dai, Wei, et autres
Publié: (2025)
Few-Shot Data Synthesis for Open Domain Multi-Hop Question Answering
par: Chen, Mingda, et autres
Publié: (2023)
par: Chen, Mingda, et autres
Publié: (2023)
CogStream: Context-guided Streaming Video Question Answering
par: Zhao, Zicheng, et autres
Publié: (2025)
par: Zhao, Zicheng, et autres
Publié: (2025)
Documents similaires
-
Show Me What and Where has Changed? Question Answering and Grounding for Remote Sensing Change Detection
par: Li, Ke, et autres
Publié: (2024) -
RSVG-ZeroOV: Exploring a Training-Free Framework for Zero-Shot Open-Vocabulary Visual Grounding in Remote Sensing Images
par: Li, Ke, et autres
Publié: (2025) -
Fine-Grained Knowledge Structuring and Retrieval for Visual Question Answering
par: Zhang, Zhengxuan, et autres
Publié: (2025) -
Investigating Prompting Techniques for Zero- and Few-Shot Visual Question Answering
par: Awal, Rabiul, et autres
Publié: (2023) -
Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering
par: Gupta, Akash, et autres
Publié: (2025)