:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Roy, Subhadeep, Bhatia, Gagan, Eger, Steffen
Format:	Preprint
Publié:	2026
Sujets:	Computer Vision and Pattern Recognition Artificial Intelligence
Accès en ligne:	https://arxiv.org/abs/2601.04946
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning
par: Greisinger, Christian, et autres
Publié: (2026)

Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition
par: Bhatia, Gagan, et autres
Publié: (2024)

Uncovering Conceptual Blindspots in Generative Image Models Using Sparse Autoencoders
par: Bohacek, Matyas, et autres
Publié: (2025)

3DFroMLLM: 3D Prototype Generation only from Pretrained Multimodal LLMs
par: Ahmed, Noor, et autres
Publié: (2025)

ScImage: How Good Are Multimodal Large Language Models at Scientific Text-to-Image Generation?
par: Zhang, Leixin, et autres
Publié: (2024)

MAJORScore: A Novel Metric for Evaluating Multimodal Relevance via Joint Representation
par: Du, Zhicheng, et autres
Publié: (2025)

CulturalFrames: Assessing Cultural Expectation Alignment in Text-to-Image Models and Evaluation Metrics
par: Nayak, Shravan, et autres
Publié: (2025)

Multimodal Prototype-Enhanced Network for Few-Shot Action Recognition
par: Ni, Xinzhe, et autres
Publié: (2022)

DPU: Dynamic Prototype Updating for Multimodal Out-of-Distribution Detection
par: Li, Shawn, et autres
Publié: (2024)

Multimodal Prototype Alignment for Semi-supervised Pathology Image Segmentation
par: Fu, Mingxi, et autres
Publié: (2025)

Freeze and Reveal: Exposing Modality Bias in Vision-Language Models
par: Kavuri, Vivek Hruday, et autres
Publié: (2025)

Pedestrian Crossing Intention Prediction Using Multimodal Fusion Network
par: Li, Yuanzhe, et autres
Publié: (2025)

ConceptScope: Characterizing Dataset Bias via Disentangled Visual Concepts
par: Choi, Jinho, et autres
Publié: (2025)

QEVA: A Reference-Free Evaluation Metric for Narrative Video Summarization with Multimodal Question Answering
par: Jung, Woojun, et autres
Publié: (2026)

PISA-Bench: The PISA Index as a Multilingual and Multimodal Metric for the Evaluation of Vision-Language Models
par: Haller, Patrick, et autres
Publié: (2025)

CROC: Evaluating and Training T2I Metrics with Pseudo- and Human-Labeled Contrastive Robustness Checks
par: Leiter, Christoph, et autres
Publié: (2025)

Physics-Based Benchmarking Metrics for Multimodal Synthetic Images
par: Gupta, Kishor Datta, et autres
Publié: (2025)

StyleX: A Trainable Metric for X-ray Style Distances
par: Eckert, Dominik, et autres
Publié: (2024)

Multimodal Political Bias Identification and Neutralization
par: Bernard, Cedric, et autres
Publié: (2025)

Process Integrated Computer Vision for Real-Time Failure Prediction in Steel Rolling Mill
par: Kurrey, Vaibhav, et autres
Publié: (2025)

Sum of Group Error Differences: A Critical Examination of Bias Evaluation in Biometric Verification and a Dual-Metric Measure
par: Elobaid, Alaa, et autres
Publié: (2024)

Revealing Temporal Label Noise in Multimodal Hateful Video Classification
par: Yang, Shuonan, et autres
Publié: (2025)

FLEUR: An Explainable Reference-Free Evaluation Metric for Image Captioning Using a Large Multimodal Model
par: Lee, Yebin, et autres
Publié: (2024)

SAGE: Spuriousness-Aware Guided Prompt Exploration for Mitigating Multimodal Bias
par: Ye, Wenqian, et autres
Publié: (2025)

SHOE: Semantic HOI Open-Vocabulary Evaluation Metric
par: Noack, Maja, et autres
Publié: (2026)

Attribute Based Interpretable Evaluation Metrics for Generative Models
par: Kim, Dongkyun, et autres
Publié: (2023)

From Local Concepts to Universals: Evaluating the Multicultural Understanding of Vision-Language Models
par: Bhatia, Mehar, et autres
Publié: (2024)

Logic Unseen: Revealing the Logical Blindspots of Vision-Language Models
par: Zhou, Yuchen, et autres
Publié: (2025)

Demographic Fairness in Multimodal LLMs: A Benchmark of Gender and Ethnicity Bias in Face Verification
par: Öztürk, Ünsal, et autres
Publié: (2026)

NLLG Quarterly arXiv Report 09/24: What are the most influential current AI Papers?
par: Leiter, Christoph, et autres
Publié: (2024)

Libra-MIL: Multimodal Prototypes Stereoscopic Infused with Task-specific Language Priors for Few-shot Whole Slide Image Classification
par: Zhuang, Zhenfeng, et autres
Publié: (2025)

Pseudo-Unification: Entropy Probing Reveals Divergent Information Patterns in Unified Multimodal Models
par: Yang, Songlin, et autres
Publié: (2026)

BodyMetric: Evaluating the Realism of Human Bodies in Text-to-Image Generation
par: Andreou, Nefeli, et autres
Publié: (2024)

SAMScore: A Content Structural Similarity Metric for Image Translation Evaluation
par: Li, Yunxiang, et autres
Publié: (2023)

Comprehensive Equity Index (CEI): Definition and Application to Bias Evaluation in Biometrics
par: Solano, Imanol, et autres
Publié: (2024)

Certainly Uncertain: A Benchmark and Metric for Multimodal Epistemic and Aleatoric Awareness
par: Chandu, Khyathi Raghavi, et autres
Publié: (2024)

Polos: Multimodal Metric Learning from Human Feedback for Image Captioning
par: Wada, Yuiga, et autres
Publié: (2024)

MIBench: Evaluating LMMs on Multimodal Interaction
par: Miao, Yu, et autres
Publié: (2026)

Leveraging Vision-Language Pre-training for Human Activity Recognition in Still Images
par: Mahanta, Cristina, et autres
Publié: (2025)

STREAM: Spatio-TempoRal Evaluation and Analysis Metric for Video Generative Models
par: Kim, Pum Jun, et autres
Publié: (2024)