Enregistré dans:
| Auteurs principaux: | Roy, Subhadeep, Bhatia, Gagan, Eger, Steffen |
|---|---|
| Format: | Preprint |
| Publié: |
2026
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2601.04946 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning
par: Greisinger, Christian, et autres
Publié: (2026)
par: Greisinger, Christian, et autres
Publié: (2026)
Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition
par: Bhatia, Gagan, et autres
Publié: (2024)
par: Bhatia, Gagan, et autres
Publié: (2024)
Uncovering Conceptual Blindspots in Generative Image Models Using Sparse Autoencoders
par: Bohacek, Matyas, et autres
Publié: (2025)
par: Bohacek, Matyas, et autres
Publié: (2025)
3DFroMLLM: 3D Prototype Generation only from Pretrained Multimodal LLMs
par: Ahmed, Noor, et autres
Publié: (2025)
par: Ahmed, Noor, et autres
Publié: (2025)
ScImage: How Good Are Multimodal Large Language Models at Scientific Text-to-Image Generation?
par: Zhang, Leixin, et autres
Publié: (2024)
par: Zhang, Leixin, et autres
Publié: (2024)
MAJORScore: A Novel Metric for Evaluating Multimodal Relevance via Joint Representation
par: Du, Zhicheng, et autres
Publié: (2025)
par: Du, Zhicheng, et autres
Publié: (2025)
CulturalFrames: Assessing Cultural Expectation Alignment in Text-to-Image Models and Evaluation Metrics
par: Nayak, Shravan, et autres
Publié: (2025)
par: Nayak, Shravan, et autres
Publié: (2025)
Multimodal Prototype-Enhanced Network for Few-Shot Action Recognition
par: Ni, Xinzhe, et autres
Publié: (2022)
par: Ni, Xinzhe, et autres
Publié: (2022)
DPU: Dynamic Prototype Updating for Multimodal Out-of-Distribution Detection
par: Li, Shawn, et autres
Publié: (2024)
par: Li, Shawn, et autres
Publié: (2024)
Multimodal Prototype Alignment for Semi-supervised Pathology Image Segmentation
par: Fu, Mingxi, et autres
Publié: (2025)
par: Fu, Mingxi, et autres
Publié: (2025)
Freeze and Reveal: Exposing Modality Bias in Vision-Language Models
par: Kavuri, Vivek Hruday, et autres
Publié: (2025)
par: Kavuri, Vivek Hruday, et autres
Publié: (2025)
Pedestrian Crossing Intention Prediction Using Multimodal Fusion Network
par: Li, Yuanzhe, et autres
Publié: (2025)
par: Li, Yuanzhe, et autres
Publié: (2025)
ConceptScope: Characterizing Dataset Bias via Disentangled Visual Concepts
par: Choi, Jinho, et autres
Publié: (2025)
par: Choi, Jinho, et autres
Publié: (2025)
QEVA: A Reference-Free Evaluation Metric for Narrative Video Summarization with Multimodal Question Answering
par: Jung, Woojun, et autres
Publié: (2026)
par: Jung, Woojun, et autres
Publié: (2026)
PISA-Bench: The PISA Index as a Multilingual and Multimodal Metric for the Evaluation of Vision-Language Models
par: Haller, Patrick, et autres
Publié: (2025)
par: Haller, Patrick, et autres
Publié: (2025)
CROC: Evaluating and Training T2I Metrics with Pseudo- and Human-Labeled Contrastive Robustness Checks
par: Leiter, Christoph, et autres
Publié: (2025)
par: Leiter, Christoph, et autres
Publié: (2025)
Physics-Based Benchmarking Metrics for Multimodal Synthetic Images
par: Gupta, Kishor Datta, et autres
Publié: (2025)
par: Gupta, Kishor Datta, et autres
Publié: (2025)
StyleX: A Trainable Metric for X-ray Style Distances
par: Eckert, Dominik, et autres
Publié: (2024)
par: Eckert, Dominik, et autres
Publié: (2024)
Multimodal Political Bias Identification and Neutralization
par: Bernard, Cedric, et autres
Publié: (2025)
par: Bernard, Cedric, et autres
Publié: (2025)
Process Integrated Computer Vision for Real-Time Failure Prediction in Steel Rolling Mill
par: Kurrey, Vaibhav, et autres
Publié: (2025)
par: Kurrey, Vaibhav, et autres
Publié: (2025)
Sum of Group Error Differences: A Critical Examination of Bias Evaluation in Biometric Verification and a Dual-Metric Measure
par: Elobaid, Alaa, et autres
Publié: (2024)
par: Elobaid, Alaa, et autres
Publié: (2024)
Revealing Temporal Label Noise in Multimodal Hateful Video Classification
par: Yang, Shuonan, et autres
Publié: (2025)
par: Yang, Shuonan, et autres
Publié: (2025)
FLEUR: An Explainable Reference-Free Evaluation Metric for Image Captioning Using a Large Multimodal Model
par: Lee, Yebin, et autres
Publié: (2024)
par: Lee, Yebin, et autres
Publié: (2024)
SAGE: Spuriousness-Aware Guided Prompt Exploration for Mitigating Multimodal Bias
par: Ye, Wenqian, et autres
Publié: (2025)
par: Ye, Wenqian, et autres
Publié: (2025)
SHOE: Semantic HOI Open-Vocabulary Evaluation Metric
par: Noack, Maja, et autres
Publié: (2026)
par: Noack, Maja, et autres
Publié: (2026)
Attribute Based Interpretable Evaluation Metrics for Generative Models
par: Kim, Dongkyun, et autres
Publié: (2023)
par: Kim, Dongkyun, et autres
Publié: (2023)
From Local Concepts to Universals: Evaluating the Multicultural Understanding of Vision-Language Models
par: Bhatia, Mehar, et autres
Publié: (2024)
par: Bhatia, Mehar, et autres
Publié: (2024)
Logic Unseen: Revealing the Logical Blindspots of Vision-Language Models
par: Zhou, Yuchen, et autres
Publié: (2025)
par: Zhou, Yuchen, et autres
Publié: (2025)
Demographic Fairness in Multimodal LLMs: A Benchmark of Gender and Ethnicity Bias in Face Verification
par: Öztürk, Ünsal, et autres
Publié: (2026)
par: Öztürk, Ünsal, et autres
Publié: (2026)
NLLG Quarterly arXiv Report 09/24: What are the most influential current AI Papers?
par: Leiter, Christoph, et autres
Publié: (2024)
par: Leiter, Christoph, et autres
Publié: (2024)
Libra-MIL: Multimodal Prototypes Stereoscopic Infused with Task-specific Language Priors for Few-shot Whole Slide Image Classification
par: Zhuang, Zhenfeng, et autres
Publié: (2025)
par: Zhuang, Zhenfeng, et autres
Publié: (2025)
Pseudo-Unification: Entropy Probing Reveals Divergent Information Patterns in Unified Multimodal Models
par: Yang, Songlin, et autres
Publié: (2026)
par: Yang, Songlin, et autres
Publié: (2026)
BodyMetric: Evaluating the Realism of Human Bodies in Text-to-Image Generation
par: Andreou, Nefeli, et autres
Publié: (2024)
par: Andreou, Nefeli, et autres
Publié: (2024)
SAMScore: A Content Structural Similarity Metric for Image Translation Evaluation
par: Li, Yunxiang, et autres
Publié: (2023)
par: Li, Yunxiang, et autres
Publié: (2023)
Comprehensive Equity Index (CEI): Definition and Application to Bias Evaluation in Biometrics
par: Solano, Imanol, et autres
Publié: (2024)
par: Solano, Imanol, et autres
Publié: (2024)
Certainly Uncertain: A Benchmark and Metric for Multimodal Epistemic and Aleatoric Awareness
par: Chandu, Khyathi Raghavi, et autres
Publié: (2024)
par: Chandu, Khyathi Raghavi, et autres
Publié: (2024)
Polos: Multimodal Metric Learning from Human Feedback for Image Captioning
par: Wada, Yuiga, et autres
Publié: (2024)
par: Wada, Yuiga, et autres
Publié: (2024)
MIBench: Evaluating LMMs on Multimodal Interaction
par: Miao, Yu, et autres
Publié: (2026)
par: Miao, Yu, et autres
Publié: (2026)
Leveraging Vision-Language Pre-training for Human Activity Recognition in Still Images
par: Mahanta, Cristina, et autres
Publié: (2025)
par: Mahanta, Cristina, et autres
Publié: (2025)
STREAM: Spatio-TempoRal Evaluation and Analysis Metric for Video Generative Models
par: Kim, Pum Jun, et autres
Publié: (2024)
par: Kim, Pum Jun, et autres
Publié: (2024)
Documents similaires
-
TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning
par: Greisinger, Christian, et autres
Publié: (2026) -
Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition
par: Bhatia, Gagan, et autres
Publié: (2024) -
Uncovering Conceptual Blindspots in Generative Image Models Using Sparse Autoencoders
par: Bohacek, Matyas, et autres
Publié: (2025) -
3DFroMLLM: 3D Prototype Generation only from Pretrained Multimodal LLMs
par: Ahmed, Noor, et autres
Publié: (2025) -
ScImage: How Good Are Multimodal Large Language Models at Scientific Text-to-Image Generation?
par: Zhang, Leixin, et autres
Publié: (2024)