:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Deng, Shiling, Belongie, Serge, Christensen, Peter Ebert
Format:	Preprint
Published:	2025
Subjects:	Machine Learning
Online Access:	https://arxiv.org/abs/2501.13851
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Assessing Neural Network Robustness via Adversarial Pivotal Tuning
by: Christensen, Peter Ebert, et al.
Published: (2022)

Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models
by: Pach, Mateusz, et al.
Published: (2025)

Revealing Fine-Grained Values and Opinions in Large Language Models
by: Wright, Dustin, et al.
Published: (2024)

Epistemic Diversity and Knowledge Collapse in Large Language Models
by: Wright, Dustin, et al.
Published: (2025)

Unlearning-based Neural Interpretations
by: Choi, Ching Lam, et al.
Published: (2024)

RAIGen: Rare Attribute Identification in Text-to-Image Generative Models
by: Sreelatha, Silpa Vadakkeeveetil, et al.
Published: (2026)

Multi-Modal Framing Analysis of News
by: Arora, Arnav, et al.
Published: (2025)

Familiarity-Based Open-Set Recognition Under Adversarial Attacks
by: Enevoldsen, Philip, et al.
Published: (2023)

LoQT: Low-Rank Adapters for Quantized Pretraining
by: Loeschcke, Sebastian, et al.
Published: (2024)

Gradient Imbalance in Direct Preference Optimization
by: Ma, Qinwei, et al.
Published: (2025)

The Latent Color Subspace: Emergent Order in High-Dimensional Chaos
by: Pach, Mateusz, et al.
Published: (2026)

RespoDiff: Dual-Module Bottleneck Transformation for Responsible & Faithful T2I Generation
by: Sreelatha, Silpa Vadakkeeveetil, et al.
Published: (2025)

What Makes a Meme a Meme? Identifying Memes for Memetics-Aware Dataset Creation
by: Hazman, Muzhaffar, et al.
Published: (2024)

Stitch: Training-Free Position Control in Multimodal Diffusion Transformers
by: Bader, Jessica, et al.
Published: (2025)

Mitigating Object Hallucination in Large Vision-Language Models via Image-Grounded Guidance
by: Zhao, Linxi, et al.
Published: (2024)

ACT as Human: Multimodal Large Language Model Data Annotation with Critical Thinking
by: Lin, Lequan, et al.
Published: (2025)

AnnotatedTables: A Large Tabular Dataset with Language Model Annotations
by: Hu, Yaojie, et al.
Published: (2024)

A Template Is All You Meme
by: Bates, Luke, et al.
Published: (2023)

MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation Learning
by: Nedungadi, Vishal, et al.
Published: (2024)

Exploring the Limits of Zero Shot Vision Language Models for Hate Meme Detection: The Vulnerabilities and their Interpretations
by: Rizwan, Naquee, et al.
Published: (2024)

Is Meta-Learning Out? Rethinking Unsupervised Few-Shot Classification with Limited Entropy
by: Guan, Yunchuan, et al.
Published: (2025)

Coarse-To-Fine Tensor Trains for Compact Visual Representations
by: Loeschcke, Sebastian, et al.
Published: (2024)

FinBloom: Knowledge Grounding Large Language Model with Real-time Financial Data
by: Sinha, Ankur, et al.
Published: (2025)

MemeCLIP: Leveraging CLIP Representations for Multimodal Meme Classification
by: Shah, Siddhant Bikram, et al.
Published: (2024)

Multi-Modal One-Shot Federated Ensemble Learning for Medical Data with Vision Large Language Model
by: Wang, Naibo, et al.
Published: (2025)

Learning to Taste: A Multimodal Wine Dataset
by: Bender, Thoranna, et al.
Published: (2023)

Knowledge Vector Weakening: Efficient Training-free Unlearning for Large Vision-Language Models
by: Kim, Yejin, et al.
Published: (2026)

Large Language Model Selection with Limited Annotations
by: Durmazkeser, Yavuz, et al.
Published: (2026)

Grounding Multimodal Large Language Models in Actions
by: Szot, Andrew, et al.
Published: (2024)

TROLL: Trust Regions improve Reinforcement Learning for Large Language Models
by: Becker, Philipp, et al.
Published: (2025)

OSPC: Artificial VLM Features for Hateful Meme Detection
by: Grönquist, Peter
Published: (2024)

Evaluating Large Language Models as Virtual Annotators for Time-series Physical Sensing Data
by: Hota, Aritra, et al.
Published: (2024)

Testing Uncertainty of Large Language Models for Physics Knowledge and Reasoning
by: Reganova, Elizaveta, et al.
Published: (2024)

Detecting Hope, Hate, and Emotion in Arabic Textual Speech and Multi-modal Memes Using Large Language Models
by: AlDahoul, Nouar, et al.
Published: (2025)

Towards Understanding How Knowledge Evolves in Large Vision-Language Models
by: Wang, Sudong, et al.
Published: (2025)

Progressive Multi-granular Alignments for Grounded Reasoning in Large Vision-Language Models
by: Le, Quang-Hung, et al.
Published: (2024)

Emotion Knowledge Enhancement for Vision Large Language Models: A Self-Verification Approach for High-Quality Emotion Instruction Data Generation
by: Wang, Feifan, et al.
Published: (2025)

Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation
by: Yu, Hong-Tao, et al.
Published: (2025)

A Satellite-Ground Synergistic Large Vision-Language Model System for Earth Observation
by: Zhang, Yuxin, et al.
Published: (2025)

RadAnnotate: Large Language Models for Efficient and Reliable Radiology Report Annotation
by: Shetty, Saisha Pradeep, et al.
Published: (2026)