:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Yadav, Shashank, Tomar, Rohan, Jain, Garvit, Ahooja, Chirag, Chaudhary, Shubham, Elkan, Charles
Format:	Preprint
Publié:	2024
Sujets:	Artificial Intelligence Computer Vision and Pattern Recognition
Accès en ligne:	https://arxiv.org/abs/2410.04038
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

QYOLO: Lightweight Object Detection via Quantum Inspired Shared Channel Mixing
par: Mittal, Garvit Kumar, et autres
Publié: (2026)

Visual RAG: Expanding MLLM visual knowledge without fine-tuning
par: Bonomo, Mirco, et autres
Publié: (2025)

Enhancing targeted transferability via feature space fine-tuning
par: Zeng, Hui, et autres
Publié: (2024)

Unsupervised Domain Adaptation for Action Recognition via Self-Ensembling and Conditional Embedding Alignment
par: Ghosh, Indrajeet, et autres
Publié: (2024)

Gamified AI Approch for Early Detection of Dementia
par: Maji, Paramita Kundu, et autres
Publié: (2024)

Uncertainty modeling for fine-tuned implicit functions
par: Susmelj, Anna, et autres
Publié: (2024)

RoboSignature: Robust Signature and Watermarking on Network Attacks
par: Shaan, Aryaman, et autres
Publié: (2024)

LICA: Layered Image Composition Annotations for Graphic Design Research
par: Hirsch, Elad, et autres
Publié: (2026)

Detecting Multiple Diseases in Multiple Crops Using Deep Learning
par: Yadav, Vivek, et autres
Publié: (2025)

Lost in Translation and Noise: A Deep Dive into the Failure Modes of VLMs on Real-World Tables
par: Singh, Anshul, et autres
Publié: (2025)

MTCNET: Multi-task Learning Paradigm for Crowd Count Estimation
par: Kumar, Abhay, et autres
Publié: (2019)

LookupViT: Compressing visual information to a limited number of tokens
par: Koner, Rajat, et autres
Publié: (2024)

Color histogram equalization and fine-tuning to improve expression recognition of (partially occluded) faces on sign language datasets
par: Nunnari, Fabrizio, et autres
Publié: (2025)

Demographic-aware fine-grained visual recognition of pediatric wrist pathologies
par: Ahmed, Ammar, et autres
Publié: (2025)

Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play
par: Wang, Qinsi, et autres
Publié: (2025)

Optimising CSRNet with parameter-free attention mechanisms for crowd counting in public transport
par: Rostamza, Aida, et autres
Publié: (2026)

What explains the success of cross-modal fine-tuning with ORCA?
par: García-de-Herreros, Paloma, et autres
Publié: (2024)

RandLoRA: Full-rank parameter-efficient fine-tuning of large models
par: Albert, Paul, et autres
Publié: (2025)

Advanced Smart City Monitoring: Real-Time Identification of Indian Citizen Attributes
par: Kale, Shubham, et autres
Publié: (2024)

Oracle-RLAIF: An Improved Fine-Tuning Framework for Multi-modal Video Models through Reinforcement Learning from Ranking Feedback
par: Shi, Derek, et autres
Publié: (2025)

Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models
par: Seth, Ashish, et autres
Publié: (2024)

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning
par: Gupta, Shashank, et autres
Publié: (2025)

How Culturally Aware are Vision-Language Models?
par: Burda-Lassen, Olena, et autres
Publié: (2024)

CAD2DMD-SET: Synthetic Generation Tool of Digital Measurement Device CAD Model Datasets for fine-tuning Large Vision-Language Models
par: Valente, João, et autres
Publié: (2025)

DARN: Dynamic Adaptive Regularization Networks for Efficient and Robust Foundation Model Adaptation
par: Yadav, Dhenenjay, et autres
Publié: (2025)

Structured Unrestricted-Rank Matrices for Parameter Efficient Fine-tuning
par: Sehanobish, Arijit, et autres
Publié: (2024)

Can GPT-4o mini and Gemini 2.0 Flash Predict Fine-Grained Fashion Product Attributes? A Zero-Shot Analysis
par: Shukla, Shubham, et autres
Publié: (2025)

Improved visual-information-driven model for crowd simulation and its modular application
par: Liang, Xuanwen, et autres
Publié: (2025)

Can visual language models resolve textual ambiguity with visual cues? Let visual puns tell you!
par: Chung, Jiwan, et autres
Publié: (2024)

OmniPatch: A Universal Adversarial Patch for ViT-CNN Cross-Architecture Transfer in Semantic Segmentation
par: Aggarwal, Aarush, et autres
Publié: (2026)

Herd Mentality in Augmentation -- Not a Good Idea! A Robust Multi-stage Approach towards Deepfake Detection
par: Monu, et autres
Publié: (2024)

Transfer-LMR: Heavy-Tail Driving Behavior Recognition in Diverse Traffic Scenarios
par: Parikh, Chirag, et autres
Publié: (2024)

Refine and Align: Confidence Calibration through Multi-Agent Interaction in VQA
par: Pandey, Ayush, et autres
Publié: (2025)

Transfer learning optimization based on evolutionary selective fine tuning
par: Colan, Jacinto, et autres
Publié: (2025)

Segmentation of Maya hieroglyphs through fine-tuned foundation models
par: Shivam, FNU, et autres
Publié: (2024)

Ridgeformer: Mutli-Stage Contrastive Training For Fine-grained Cross-Domain Fingerprint Recognition
par: Pandey, Shubham, et autres
Publié: (2025)

Feature Fusion Attention Network with CycleGAN for Image Dehazing, De-Snowing and De-Raining
par: Jain, Akshat
Publié: (2025)

Technical note: ShinyAnimalCV: open-source cloud-based web application for object detection, segmentation, and three-dimensional visualization of animals using computer vision
par: Wang, Jin, et autres
Publié: (2023)

HyperGALE: ASD Classification via Hypergraph Gated Attention with Learnable Hyperedges
par: Arora, Mehul, et autres
Publié: (2024)

Detect an Object At Once without Fine-tuning
par: Hao, Junyu, et autres
Publié: (2024)