Enregistré dans:
| Auteurs principaux: | Sachdeva, Bhuvan, Uppal, Karan, Java, Abhinav, Balasubramanian, Vineeth N. |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2511.18787 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Swift Sampling: Selecting Temporal Surprises via Taylor Series
par: Kim, Dahye, et autres
Publié: (2026)
par: Kim, Dahye, et autres
Publié: (2026)
Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks
par: Garg, Tanmay, et autres
Publié: (2024)
par: Garg, Tanmay, et autres
Publié: (2024)
Walking the Web of Concept-Class Relationships in Incrementally Trained Interpretable Models
par: Agrawal, Susmit, et autres
Publié: (2025)
par: Agrawal, Susmit, et autres
Publié: (2025)
Efficient Vocabulary-Free Fine-Grained Visual Recognition in the Age of Multimodal LLMs
par: Kuchibhotla, Hari Chandana, et autres
Publié: (2025)
par: Kuchibhotla, Hari Chandana, et autres
Publié: (2025)
Fiducial Focus Augmentation for Facial Landmark Detection
par: Kar, Purbayan, et autres
Publié: (2024)
par: Kar, Purbayan, et autres
Publié: (2024)
Understanding Retrieval-Augmented Task Adaptation for Vision-Language Models
par: Ming, Yifei, et autres
Publié: (2024)
par: Ming, Yifei, et autres
Publié: (2024)
Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models
par: Chen, Yangyi, et autres
Publié: (2023)
par: Chen, Yangyi, et autres
Publié: (2023)
HandsOnVLM: Vision-Language Models for Hand-Object Interaction Prediction
par: Bao, Chen, et autres
Publié: (2024)
par: Bao, Chen, et autres
Publié: (2024)
BiasConnect: Investigating Bias Interactions in Text-to-Image Models
par: Shukla, Pushkar, et autres
Publié: (2025)
par: Shukla, Pushkar, et autres
Publié: (2025)
Grounding Descriptions in Images informs Zero-Shot Visual Recognition
par: Halbe, Shaunak, et autres
Publié: (2024)
par: Halbe, Shaunak, et autres
Publié: (2024)
DRESS: Instructing Large Vision-Language Models to Align and Interact with Humans via Natural Language Feedback
par: Chen, Yangyi, et autres
Publié: (2023)
par: Chen, Yangyi, et autres
Publié: (2023)
Towards Multimodal Understanding via Stable Diffusion as a Task-Aware Feature Extractor
par: Agarwal, Vatsal, et autres
Publié: (2025)
par: Agarwal, Vatsal, et autres
Publié: (2025)
GFlowVLM: Enhancing Multi-step Reasoning in Vision-Language Models with Generative Flow Networks
par: Kang, Haoqiang, et autres
Publié: (2025)
par: Kang, Haoqiang, et autres
Publié: (2025)
Leveraging Vision Language Models for Specialized Agricultural Tasks
par: Arshad, Muhammad Arbab, et autres
Publié: (2024)
par: Arshad, Muhammad Arbab, et autres
Publié: (2024)
Transferring Textual Preferences to Vision-Language Understanding through Model Merging
par: Li, Chen-An, et autres
Publié: (2025)
par: Li, Chen-An, et autres
Publié: (2025)
Knowledge Transfer from Vision Foundation Models for Efficient Training of Small Task-specific Models
par: Vemulapalli, Raviteja, et autres
Publié: (2023)
par: Vemulapalli, Raviteja, et autres
Publié: (2023)
Transferable Adversarial Attacks on Black-Box Vision-Language Models
par: Hu, Kai, et autres
Publié: (2025)
par: Hu, Kai, et autres
Publié: (2025)
Learning to Rank Pre-trained Vision-Language Models for Downstream Tasks
par: Ding, Yuhe, et autres
Publié: (2024)
par: Ding, Yuhe, et autres
Publié: (2024)
Imagine, Verify, Execute: Memory-guided Agentic Exploration with Vision-Language Models
par: Lee, Seungjae, et autres
Publié: (2025)
par: Lee, Seungjae, et autres
Publié: (2025)
Towards Understanding How Knowledge Evolves in Large Vision-Language Models
par: Wang, Sudong, et autres
Publié: (2025)
par: Wang, Sudong, et autres
Publié: (2025)
$\oslash$ Source Models Leak What They Shouldn't $\nrightarrow$: Unlearning Zero-Shot Transfer in Domain Adaptation Through Adversarial Optimization
par: Devalapally, Arnav, et autres
Publié: (2026)
par: Devalapally, Arnav, et autres
Publié: (2026)
Concept-skill Transferability-based Data Selection for Large Vision-Language Models
par: Lee, Jaewoo, et autres
Publié: (2024)
par: Lee, Jaewoo, et autres
Publié: (2024)
Source-Free Domain Adaptation by Optimizing Batch-Wise Cosine Similarity
par: Pathak, Harsharaj, et autres
Publié: (2026)
par: Pathak, Harsharaj, et autres
Publié: (2026)
C2FDrone: Coarse-to-Fine Drone-to-Drone Detection using Vision Transformer Networks
par: Rebbapragada, Sairam VC, et autres
Publié: (2024)
par: Rebbapragada, Sairam VC, et autres
Publié: (2024)
Vision-Language Models Create Cross-Modal Task Representations
par: Luo, Grace, et autres
Publié: (2024)
par: Luo, Grace, et autres
Publié: (2024)
Benchmarking Vision, Language, & Action Models on Robotic Learning Tasks
par: Guruprasad, Pranav, et autres
Publié: (2024)
par: Guruprasad, Pranav, et autres
Publié: (2024)
U2-BENCH: Benchmarking Large Vision-Language Models on Ultrasound Understanding
par: Le, Anjie, et autres
Publié: (2025)
par: Le, Anjie, et autres
Publié: (2025)
Cross-Modal Adapter: Parameter-Efficient Transfer Learning Approach for Vision-Language Models
par: Yang, Juncheng, et autres
Publié: (2024)
par: Yang, Juncheng, et autres
Publié: (2024)
On Evaluation of Vision Datasets and Models using Human Competency Frameworks
par: Ramachandran, Rahul, et autres
Publié: (2024)
par: Ramachandran, Rahul, et autres
Publié: (2024)
Dynamic Scene Understanding from Vision-Language Representations
par: Pruss, Shahaf, et autres
Publié: (2025)
par: Pruss, Shahaf, et autres
Publié: (2025)
Advancing Vision-based Human Action Recognition: Exploring Vision-Language CLIP Model for Generalisation in Domain-Independent Tasks
par: Shandilya, Utkarsh, et autres
Publié: (2025)
par: Shandilya, Utkarsh, et autres
Publié: (2025)
Do Vision--Language Models Understand 3D Scenes or Just Catalogue Objects?
par: Maheshwari, Animesh, et autres
Publié: (2026)
par: Maheshwari, Animesh, et autres
Publié: (2026)
Calibrated and Robust Foundation Models for Vision-Language and Medical Image Tasks Under Distribution Shift
par: Khan, Behraj, et autres
Publié: (2025)
par: Khan, Behraj, et autres
Publié: (2025)
AutoMMLab: Automatically Generating Deployable Models from Language Instructions for Computer Vision Tasks
par: Yang, Zekang, et autres
Publié: (2024)
par: Yang, Zekang, et autres
Publié: (2024)
IndicVisionBench: Benchmarking Cultural and Multilingual Understanding in VLMs
par: Faraz, Ali, et autres
Publié: (2025)
par: Faraz, Ali, et autres
Publié: (2025)
Bi-MCQ: Reformulating Vision-Language Alignment for Negation Understanding
par: Kim, Tae Hun, et autres
Publié: (2026)
par: Kim, Tae Hun, et autres
Publié: (2026)
From Understanding to Engagement: Personalized pharmacy Video Clips via Vision Language Models (VLMs)
par: Mishra, Suyash, et autres
Publié: (2026)
par: Mishra, Suyash, et autres
Publié: (2026)
Gems: Group Emotion Profiling Through Multimodal Situational Understanding
par: Kataria, Anubhav, et autres
Publié: (2025)
par: Kataria, Anubhav, et autres
Publié: (2025)
Toward Universal and Transferable Jailbreak Attacks on Vision-Language Models
par: Cui, Kaiyuan, et autres
Publié: (2026)
par: Cui, Kaiyuan, et autres
Publié: (2026)
Vision-Language Models Unlock Task-Centric Latent Actions
par: Nikulin, Alexander, et autres
Publié: (2026)
par: Nikulin, Alexander, et autres
Publié: (2026)
Documents similaires
-
Swift Sampling: Selecting Temporal Surprises via Taylor Series
par: Kim, Dahye, et autres
Publié: (2026) -
Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks
par: Garg, Tanmay, et autres
Publié: (2024) -
Walking the Web of Concept-Class Relationships in Incrementally Trained Interpretable Models
par: Agrawal, Susmit, et autres
Publié: (2025) -
Efficient Vocabulary-Free Fine-Grained Visual Recognition in the Age of Multimodal LLMs
par: Kuchibhotla, Hari Chandana, et autres
Publié: (2025) -
Fiducial Focus Augmentation for Facial Landmark Detection
par: Kar, Purbayan, et autres
Publié: (2024)