:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Wang, Xijun, Huang, Junyun, Abdalla, Rayyan, Zhang, Chengyuan, Xian, Ruiqi, Manocha, Dinesh
Format:	Preprint
Published:	2025
Subjects:	Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2509.18763
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

DAVE: Diverse Atomic Visual Elements Dataset with High Representation of Vulnerable Road Users in Complex and Unpredictable Environments
by: Wang, Xijun, et al.
Published: (2024)

SCP: Soft Conditional Prompt Learning for Aerial Video Action Recognition
by: Wang, Xijun, et al.
Published: (2023)

FALCON: Future-Aware Learning with Contextual Object-Centric Pretraining for UAV Action Recognition
by: Xian, Ruiqi, et al.
Published: (2024)

AGL-NET: Aerial-Ground Cross-Modal Global Localization with Varying Scales
by: Guan, Tianrui, et al.
Published: (2024)

HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models
by: Guan, Tianrui, et al.
Published: (2023)

AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models
by: Wu, Xiyang, et al.
Published: (2024)

Q-VLM: Post-training Quantization for Large Vision-Language Models
by: Wang, Changyuan, et al.
Published: (2024)

Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models
by: Seth, Ashish, et al.
Published: (2024)

Do Vision-Language Models Understand Compound Nouns?
by: Kumar, Sonal, et al.
Published: (2024)

MPTQ-ViT: Mixed-Precision Post-Training Quantization for Vision Transformer
by: Tai, Yu-Shan, et al.
Published: (2024)

BiDM: Pushing the Limit of Quantization for Diffusion Models
by: Zheng, Xingyu, et al.
Published: (2024)

CalibFree: Self-Supervised View Feature Separation for Calibration-Free Multi-Camera Multi-Object Tracking
by: Xian, Ruiqi, et al.
Published: (2026)

EgoSocial: Benchmarking Proactive Intervention Ability of Omnimodal LLMs via Egocentric Social Interaction Perception
by: Wang, Xijun, et al.
Published: (2025)

TreeQ: Pushing the Quantization Boundary of Diffusion Transformer via Tree-Structured Mixed-Precision Search
by: Yang, Kaicheng, et al.
Published: (2025)

AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer
by: Wu, Zhuguanyu, et al.
Published: (2024)

VLM-AutoDrive: Post-Training Vision-Language Models for Safety-Critical Autonomous Driving Events
by: Bhat, Mohammad Qazim, et al.
Published: (2026)

IntCoOp: Interpretability-Aware Vision-Language Prompt Tuning
by: Ghosal, Soumya Suvra, et al.
Published: (2024)

Inst4DGS: Instance-Decomposed 4D Gaussian Splatting with Multi-Video Label Permutation Learning
by: Lee, Yonghan, et al.
Published: (2026)

QMamba: Post-Training Quantization for Vision State Space Models
by: Li, Yinglong, et al.
Published: (2025)

I&S-ViT: An Inclusive & Stable Method for Pushing the Limit of Post-Training ViTs Quantization
by: Zhong, Yunshan, et al.
Published: (2023)

R-VLM: Region-Aware Vision Language Model for Precise GUI Grounding
by: Park, Joonhyung, et al.
Published: (2025)

Fine-Grained Post-Training Quantization for Large Vision Language Models with Quantization-Aware Integrated Gradients
by: Xiang, Ziwei, et al.
Published: (2026)

PACE: Data-Driven Virtual Agent Interaction in Dense and Cluttered Environments
by: Mullen, James, et al.
Published: (2023)

Financial Models in Generative Art: Black-Scholes-Inspired Concept Blending in Text-to-Image Diffusion
by: Kothandaraman, Divya, et al.
Published: (2024)

Towards Accurate Post-Training Quantization of Vision Transformers via Error Reduction
by: Zhong, Yunshan, et al.
Published: (2024)

AIQViT: Architecture-Informed Post-Training Quantization for Vision Transformers
by: Jiang, Runqing, et al.
Published: (2025)

QVGen: Pushing the Limit of Quantized Video Generative Models
by: Huang, Yushi, et al.
Published: (2025)

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models
by: Xue, Yufei, et al.
Published: (2025)

Q-Sched: Pushing the Boundaries of Few-Step Diffusion Models with Quantization-Aware Scheduling
by: Frumkin, Natalia, et al.
Published: (2025)

SLAT-Phys: Fast Material Property Field Prediction from Structured 3D Latents
by: Das, Rocktim Jyoti, et al.
Published: (2026)

Shedding the Bits: Pushing the Boundaries of Quantization with Minifloats on FPGAs
by: Aggarwal, Shivam, et al.
Published: (2023)

Progressive Fine-to-Coarse Reconstruction for Accurate Low-Bit Post-Training Quantization in Vision Transformers
by: Ding, Rui, et al.
Published: (2024)

How Learnable Grids Recover Fine Detail in Low Dimensions: A Neural Tangent Kernel Analysis of Multigrid Parametric Encodings
by: Audia, Samuel, et al.
Published: (2025)

Differentiable Frequency-based Disentanglement for Aerial Video Action Recognition
by: Kothandaraman, Divya, et al.
Published: (2022)

Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs
by: Bhattacharya, Uttaran, et al.
Published: (2024)

SS-SFDA : Self-Supervised Source-Free Domain Adaptation for Road Segmentation in Hazardous Environments
by: Kothandaraman, Divya, et al.
Published: (2020)

MGRQ: Post-Training Quantization For Vision Transformer With Mixed Granularity Reconstruction
by: Yang, Lianwei, et al.
Published: (2024)

RPG360: Robust 360 Depth Estimation with Perspective Foundation Models and Graph Optimization
by: Jung, Dongki, et al.
Published: (2025)

APHQ-ViT: Post-Training Quantization with Average Perturbation Hessian Based Reconstruction for Vision Transformers
by: Wu, Zhuguanyu, et al.
Published: (2025)

Quantization Variation: A New Perspective on Training Transformers with Low-Bit Precision
by: Huang, Xijie, et al.
Published: (2023)