:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Sachdeva, Bhuvan, Uppal, Karan, Java, Abhinav, Balasubramanian, Vineeth N.
Format:	Preprint
Publié:	2025
Sujets:	Computer Vision and Pattern Recognition Machine Learning
Accès en ligne:	https://arxiv.org/abs/2511.18787
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Swift Sampling: Selecting Temporal Surprises via Taylor Series
par: Kim, Dahye, et autres
Publié: (2026)

Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks
par: Garg, Tanmay, et autres
Publié: (2024)

Walking the Web of Concept-Class Relationships in Incrementally Trained Interpretable Models
par: Agrawal, Susmit, et autres
Publié: (2025)

Efficient Vocabulary-Free Fine-Grained Visual Recognition in the Age of Multimodal LLMs
par: Kuchibhotla, Hari Chandana, et autres
Publié: (2025)

Fiducial Focus Augmentation for Facial Landmark Detection
par: Kar, Purbayan, et autres
Publié: (2024)

Understanding Retrieval-Augmented Task Adaptation for Vision-Language Models
par: Ming, Yifei, et autres
Publié: (2024)

Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models
par: Chen, Yangyi, et autres
Publié: (2023)

HandsOnVLM: Vision-Language Models for Hand-Object Interaction Prediction
par: Bao, Chen, et autres
Publié: (2024)

BiasConnect: Investigating Bias Interactions in Text-to-Image Models
par: Shukla, Pushkar, et autres
Publié: (2025)

Grounding Descriptions in Images informs Zero-Shot Visual Recognition
par: Halbe, Shaunak, et autres
Publié: (2024)

DRESS: Instructing Large Vision-Language Models to Align and Interact with Humans via Natural Language Feedback
par: Chen, Yangyi, et autres
Publié: (2023)

Towards Multimodal Understanding via Stable Diffusion as a Task-Aware Feature Extractor
par: Agarwal, Vatsal, et autres
Publié: (2025)

GFlowVLM: Enhancing Multi-step Reasoning in Vision-Language Models with Generative Flow Networks
par: Kang, Haoqiang, et autres
Publié: (2025)

Leveraging Vision Language Models for Specialized Agricultural Tasks
par: Arshad, Muhammad Arbab, et autres
Publié: (2024)

Transferring Textual Preferences to Vision-Language Understanding through Model Merging
par: Li, Chen-An, et autres
Publié: (2025)

Knowledge Transfer from Vision Foundation Models for Efficient Training of Small Task-specific Models
par: Vemulapalli, Raviteja, et autres
Publié: (2023)

Transferable Adversarial Attacks on Black-Box Vision-Language Models
par: Hu, Kai, et autres
Publié: (2025)

Learning to Rank Pre-trained Vision-Language Models for Downstream Tasks
par: Ding, Yuhe, et autres
Publié: (2024)

Imagine, Verify, Execute: Memory-guided Agentic Exploration with Vision-Language Models
par: Lee, Seungjae, et autres
Publié: (2025)

Towards Understanding How Knowledge Evolves in Large Vision-Language Models
par: Wang, Sudong, et autres
Publié: (2025)

$\oslash$ Source Models Leak What They Shouldn't $\nrightarrow$: Unlearning Zero-Shot Transfer in Domain Adaptation Through Adversarial Optimization
par: Devalapally, Arnav, et autres
Publié: (2026)

Concept-skill Transferability-based Data Selection for Large Vision-Language Models
par: Lee, Jaewoo, et autres
Publié: (2024)

Source-Free Domain Adaptation by Optimizing Batch-Wise Cosine Similarity
par: Pathak, Harsharaj, et autres
Publié: (2026)

C2FDrone: Coarse-to-Fine Drone-to-Drone Detection using Vision Transformer Networks
par: Rebbapragada, Sairam VC, et autres
Publié: (2024)

Vision-Language Models Create Cross-Modal Task Representations
par: Luo, Grace, et autres
Publié: (2024)

Benchmarking Vision, Language, & Action Models on Robotic Learning Tasks
par: Guruprasad, Pranav, et autres
Publié: (2024)

U2-BENCH: Benchmarking Large Vision-Language Models on Ultrasound Understanding
par: Le, Anjie, et autres
Publié: (2025)

Cross-Modal Adapter: Parameter-Efficient Transfer Learning Approach for Vision-Language Models
par: Yang, Juncheng, et autres
Publié: (2024)

On Evaluation of Vision Datasets and Models using Human Competency Frameworks
par: Ramachandran, Rahul, et autres
Publié: (2024)

Dynamic Scene Understanding from Vision-Language Representations
par: Pruss, Shahaf, et autres
Publié: (2025)

Advancing Vision-based Human Action Recognition: Exploring Vision-Language CLIP Model for Generalisation in Domain-Independent Tasks
par: Shandilya, Utkarsh, et autres
Publié: (2025)

Do Vision--Language Models Understand 3D Scenes or Just Catalogue Objects?
par: Maheshwari, Animesh, et autres
Publié: (2026)

Calibrated and Robust Foundation Models for Vision-Language and Medical Image Tasks Under Distribution Shift
par: Khan, Behraj, et autres
Publié: (2025)

AutoMMLab: Automatically Generating Deployable Models from Language Instructions for Computer Vision Tasks
par: Yang, Zekang, et autres
Publié: (2024)

IndicVisionBench: Benchmarking Cultural and Multilingual Understanding in VLMs
par: Faraz, Ali, et autres
Publié: (2025)

Bi-MCQ: Reformulating Vision-Language Alignment for Negation Understanding
par: Kim, Tae Hun, et autres
Publié: (2026)

From Understanding to Engagement: Personalized pharmacy Video Clips via Vision Language Models (VLMs)
par: Mishra, Suyash, et autres
Publié: (2026)

Gems: Group Emotion Profiling Through Multimodal Situational Understanding
par: Kataria, Anubhav, et autres
Publié: (2025)

Toward Universal and Transferable Jailbreak Attacks on Vision-Language Models
par: Cui, Kaiyuan, et autres
Publié: (2026)

Vision-Language Models Unlock Task-Centric Latent Actions
par: Nikulin, Alexander, et autres
Publié: (2026)