:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Suzuki, Teppei, Ozawa, Keisuke
Format:	Preprint
Published:	2025
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2504.09979
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Federated Learning for Large-Scale Scene Modeling with Neural Radiance Fields
by: Suzuki, Teppei
Published: (2023)

Fed3DGS: Scalable 3D Gaussian Splatting with Federated Learning
by: Suzuki, Teppei
Published: (2024)

Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation
by: Yu, Hong-Tao, et al.
Published: (2025)

Evaluating Attribute Comprehension in Large Vision-Language Models
by: Zhang, Haiwen, et al.
Published: (2024)

Instruction-Following Evaluation of Large Vision-Language Models
by: Shiono, Daiki, et al.
Published: (2025)

Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling
by: Wu, Tsung-Han, et al.
Published: (2025)

VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model
by: Wang, Sibo, et al.
Published: (2024)

Vision Remember: Recovering Visual Information in Efficient LVLM with Vision Feature Resampling
by: Feng, Ze, et al.
Published: (2025)

MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI
by: Ying, Kaining, et al.
Published: (2024)

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models
by: Fu, Chaoyou, et al.
Published: (2023)

REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models
by: Zhang, Jie, et al.
Published: (2025)

Benchmarking Large Vision-Language Models on CFMME: A Comprehensive Chinese Financial Multimodal Evaluation Dataset
by: Chen, Qian, et al.
Published: (2026)

Forensics-Bench: A Comprehensive Forgery Detection Benchmark Suite for Large Vision Language Models
by: Wang, Jin, et al.
Published: (2025)

Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning
by: Lu, Fan, et al.
Published: (2024)

TinyLVLM-eHub: Towards Comprehensive and Efficient Evaluation for Large Vision-Language Models
by: Shao, Wenqi, et al.
Published: (2023)

XDR-LVLM: An Explainable Vision-Language Large Model for Diabetic Retinopathy Diagnosis
by: Ito, Masato, et al.
Published: (2025)

DDFAV: Remote Sensing Large Vision Language Models Dataset and Evaluation Benchmark
by: Li, Haodong, et al.
Published: (2024)

IllusionBench+: A Large-scale and Comprehensive Benchmark for Visual Illusion Understanding in Vision-Language Models
by: Zhang, Yiming, et al.
Published: (2025)

VLRMBench: A Comprehensive and Challenging Benchmark for Vision-Language Reward Models
by: Ruan, Jiacheng, et al.
Published: (2025)

MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models
by: Xia, Peng, et al.
Published: (2024)

EffiVLM-BENCH: A Comprehensive Benchmark for Evaluating Training-Free Acceleration in Large Vision-Language Models
by: Wang, Zekun, et al.
Published: (2025)

Robobench: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models as Embodied Brain
by: Luo, Yulin, et al.
Published: (2025)

FinChart-Bench: Benchmarking Financial Chart Comprehension in Vision-Language Models
by: Shu, Dong, et al.
Published: (2025)

Efficient and Comprehensive Feature Extraction in Large Vision-Language Model for Pathology Analysis
by: Zhang, Shengxuming, et al.
Published: (2024)

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology
by: Qin, Zhenyue, et al.
Published: (2025)

ProactiveVideoQA: A Comprehensive Benchmark Evaluating Proactive Interactions in Video Large Language Models
by: Wang, Yueqian, et al.
Published: (2025)

MultiVerse: A Multi-Turn Conversation Benchmark for Evaluating Large Vision and Language Models
by: Lee, Young-Jun, et al.
Published: (2025)

Judging the Judges: Can Large Vision-Language Models Fairly Evaluate Chart Comprehension and Reasoning?
by: Laskar, Md Tahmid Rahman, et al.
Published: (2025)

PARCEL: Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding
by: Kuzucu, Selim, et al.
Published: (2026)

UWBench: A Comprehensive Vision-Language Benchmark for Underwater Understanding
by: Zhang, Da, et al.
Published: (2025)

Lost in Space: Probing Fine-grained Spatial Understanding in Vision and Language Resamplers
by: Pantazopoulos, Georgios, et al.
Published: (2024)

Measuring the Measurers: Quality Evaluation of Hallucination Benchmarks for Large Vision-Language Models
by: Yan, Bei, et al.
Published: (2024)

FPBench: A Comprehensive Benchmark of Multimodal Large Language Models for Fingerprint Analysis
by: Gavas, Ekta, et al.
Published: (2025)

CELLO: Causal Evaluation of Large Vision-Language Models
by: Chen, Meiqi, et al.
Published: (2024)

Towards Efficient Large Vision-Language Models: A Comprehensive Survey on Inference Strategies
by: Pathak, Surendra, et al.
Published: (2026)

How Far Have Medical Vision-Language Models Come? A Comprehensive Benchmarking Study
by: Liu, Che, et al.
Published: (2025)

Benchmarking and Mitigating MCQA Selection Bias of Large Vision-Language Models
by: Atabuzzaman, Md., et al.
Published: (2025)

CHOICE: Benchmarking the Remote Sensing Capabilities of Large Vision-Language Models
by: An, Xiao, et al.
Published: (2024)

Enhancing Large Vision Language Models with Self-Training on Image Comprehension
by: Deng, Yihe, et al.
Published: (2024)

LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models
by: Qin, Zhenyue, et al.
Published: (2024)