Enregistré dans:
| Auteurs principaux: | Yadav, Shashank, Tomar, Rohan, Jain, Garvit, Ahooja, Chirag, Chaudhary, Shubham, Elkan, Charles |
|---|---|
| Format: | Preprint |
| Publié: |
2024
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2410.04038 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
QYOLO: Lightweight Object Detection via Quantum Inspired Shared Channel Mixing
par: Mittal, Garvit Kumar, et autres
Publié: (2026)
par: Mittal, Garvit Kumar, et autres
Publié: (2026)
Visual RAG: Expanding MLLM visual knowledge without fine-tuning
par: Bonomo, Mirco, et autres
Publié: (2025)
par: Bonomo, Mirco, et autres
Publié: (2025)
Enhancing targeted transferability via feature space fine-tuning
par: Zeng, Hui, et autres
Publié: (2024)
par: Zeng, Hui, et autres
Publié: (2024)
Unsupervised Domain Adaptation for Action Recognition via Self-Ensembling and Conditional Embedding Alignment
par: Ghosh, Indrajeet, et autres
Publié: (2024)
par: Ghosh, Indrajeet, et autres
Publié: (2024)
Gamified AI Approch for Early Detection of Dementia
par: Maji, Paramita Kundu, et autres
Publié: (2024)
par: Maji, Paramita Kundu, et autres
Publié: (2024)
Uncertainty modeling for fine-tuned implicit functions
par: Susmelj, Anna, et autres
Publié: (2024)
par: Susmelj, Anna, et autres
Publié: (2024)
RoboSignature: Robust Signature and Watermarking on Network Attacks
par: Shaan, Aryaman, et autres
Publié: (2024)
par: Shaan, Aryaman, et autres
Publié: (2024)
LICA: Layered Image Composition Annotations for Graphic Design Research
par: Hirsch, Elad, et autres
Publié: (2026)
par: Hirsch, Elad, et autres
Publié: (2026)
Detecting Multiple Diseases in Multiple Crops Using Deep Learning
par: Yadav, Vivek, et autres
Publié: (2025)
par: Yadav, Vivek, et autres
Publié: (2025)
Lost in Translation and Noise: A Deep Dive into the Failure Modes of VLMs on Real-World Tables
par: Singh, Anshul, et autres
Publié: (2025)
par: Singh, Anshul, et autres
Publié: (2025)
MTCNET: Multi-task Learning Paradigm for Crowd Count Estimation
par: Kumar, Abhay, et autres
Publié: (2019)
par: Kumar, Abhay, et autres
Publié: (2019)
LookupViT: Compressing visual information to a limited number of tokens
par: Koner, Rajat, et autres
Publié: (2024)
par: Koner, Rajat, et autres
Publié: (2024)
Color histogram equalization and fine-tuning to improve expression recognition of (partially occluded) faces on sign language datasets
par: Nunnari, Fabrizio, et autres
Publié: (2025)
par: Nunnari, Fabrizio, et autres
Publié: (2025)
Demographic-aware fine-grained visual recognition of pediatric wrist pathologies
par: Ahmed, Ammar, et autres
Publié: (2025)
par: Ahmed, Ammar, et autres
Publié: (2025)
Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play
par: Wang, Qinsi, et autres
Publié: (2025)
par: Wang, Qinsi, et autres
Publié: (2025)
Optimising CSRNet with parameter-free attention mechanisms for crowd counting in public transport
par: Rostamza, Aida, et autres
Publié: (2026)
par: Rostamza, Aida, et autres
Publié: (2026)
What explains the success of cross-modal fine-tuning with ORCA?
par: García-de-Herreros, Paloma, et autres
Publié: (2024)
par: García-de-Herreros, Paloma, et autres
Publié: (2024)
RandLoRA: Full-rank parameter-efficient fine-tuning of large models
par: Albert, Paul, et autres
Publié: (2025)
par: Albert, Paul, et autres
Publié: (2025)
Advanced Smart City Monitoring: Real-Time Identification of Indian Citizen Attributes
par: Kale, Shubham, et autres
Publié: (2024)
par: Kale, Shubham, et autres
Publié: (2024)
Oracle-RLAIF: An Improved Fine-Tuning Framework for Multi-modal Video Models through Reinforcement Learning from Ranking Feedback
par: Shi, Derek, et autres
Publié: (2025)
par: Shi, Derek, et autres
Publié: (2025)
Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models
par: Seth, Ashish, et autres
Publié: (2024)
par: Seth, Ashish, et autres
Publié: (2024)
A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning
par: Gupta, Shashank, et autres
Publié: (2025)
par: Gupta, Shashank, et autres
Publié: (2025)
How Culturally Aware are Vision-Language Models?
par: Burda-Lassen, Olena, et autres
Publié: (2024)
par: Burda-Lassen, Olena, et autres
Publié: (2024)
CAD2DMD-SET: Synthetic Generation Tool of Digital Measurement Device CAD Model Datasets for fine-tuning Large Vision-Language Models
par: Valente, João, et autres
Publié: (2025)
par: Valente, João, et autres
Publié: (2025)
DARN: Dynamic Adaptive Regularization Networks for Efficient and Robust Foundation Model Adaptation
par: Yadav, Dhenenjay, et autres
Publié: (2025)
par: Yadav, Dhenenjay, et autres
Publié: (2025)
Structured Unrestricted-Rank Matrices for Parameter Efficient Fine-tuning
par: Sehanobish, Arijit, et autres
Publié: (2024)
par: Sehanobish, Arijit, et autres
Publié: (2024)
Can GPT-4o mini and Gemini 2.0 Flash Predict Fine-Grained Fashion Product Attributes? A Zero-Shot Analysis
par: Shukla, Shubham, et autres
Publié: (2025)
par: Shukla, Shubham, et autres
Publié: (2025)
Improved visual-information-driven model for crowd simulation and its modular application
par: Liang, Xuanwen, et autres
Publié: (2025)
par: Liang, Xuanwen, et autres
Publié: (2025)
Can visual language models resolve textual ambiguity with visual cues? Let visual puns tell you!
par: Chung, Jiwan, et autres
Publié: (2024)
par: Chung, Jiwan, et autres
Publié: (2024)
OmniPatch: A Universal Adversarial Patch for ViT-CNN Cross-Architecture Transfer in Semantic Segmentation
par: Aggarwal, Aarush, et autres
Publié: (2026)
par: Aggarwal, Aarush, et autres
Publié: (2026)
Herd Mentality in Augmentation -- Not a Good Idea! A Robust Multi-stage Approach towards Deepfake Detection
par: Monu, et autres
Publié: (2024)
par: Monu, et autres
Publié: (2024)
Transfer-LMR: Heavy-Tail Driving Behavior Recognition in Diverse Traffic Scenarios
par: Parikh, Chirag, et autres
Publié: (2024)
par: Parikh, Chirag, et autres
Publié: (2024)
Refine and Align: Confidence Calibration through Multi-Agent Interaction in VQA
par: Pandey, Ayush, et autres
Publié: (2025)
par: Pandey, Ayush, et autres
Publié: (2025)
Transfer learning optimization based on evolutionary selective fine tuning
par: Colan, Jacinto, et autres
Publié: (2025)
par: Colan, Jacinto, et autres
Publié: (2025)
Segmentation of Maya hieroglyphs through fine-tuned foundation models
par: Shivam, FNU, et autres
Publié: (2024)
par: Shivam, FNU, et autres
Publié: (2024)
Ridgeformer: Mutli-Stage Contrastive Training For Fine-grained Cross-Domain Fingerprint Recognition
par: Pandey, Shubham, et autres
Publié: (2025)
par: Pandey, Shubham, et autres
Publié: (2025)
Feature Fusion Attention Network with CycleGAN for Image Dehazing, De-Snowing and De-Raining
par: Jain, Akshat
Publié: (2025)
par: Jain, Akshat
Publié: (2025)
Technical note: ShinyAnimalCV: open-source cloud-based web application for object detection, segmentation, and three-dimensional visualization of animals using computer vision
par: Wang, Jin, et autres
Publié: (2023)
par: Wang, Jin, et autres
Publié: (2023)
HyperGALE: ASD Classification via Hypergraph Gated Attention with Learnable Hyperedges
par: Arora, Mehul, et autres
Publié: (2024)
par: Arora, Mehul, et autres
Publié: (2024)
Detect an Object At Once without Fine-tuning
par: Hao, Junyu, et autres
Publié: (2024)
par: Hao, Junyu, et autres
Publié: (2024)
Documents similaires
-
QYOLO: Lightweight Object Detection via Quantum Inspired Shared Channel Mixing
par: Mittal, Garvit Kumar, et autres
Publié: (2026) -
Visual RAG: Expanding MLLM visual knowledge without fine-tuning
par: Bonomo, Mirco, et autres
Publié: (2025) -
Enhancing targeted transferability via feature space fine-tuning
par: Zeng, Hui, et autres
Publié: (2024) -
Unsupervised Domain Adaptation for Action Recognition via Self-Ensembling and Conditional Embedding Alignment
par: Ghosh, Indrajeet, et autres
Publié: (2024) -
Gamified AI Approch for Early Detection of Dementia
par: Maji, Paramita Kundu, et autres
Publié: (2024)