:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Choi, Joong Ho, Zhao, Jiayang, Appalla, Avani, Mukesh, Himansh, Vasani, Dhwanil, Qian, Boyi
Natura:	Preprint
Pubblicazione:	2026
Soggetti:	Computer Vision and Pattern Recognition Artificial Intelligence
Accesso online:	https://arxiv.org/abs/2604.02492
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

CompactPrompt: A Unified Pipeline for Prompt Data Compression in LLM Workflows
di: Choi, Joong Ho, et al.
Pubblicazione: (2025)

MIRe: Enhancing Multimodal Queries Representation via Fusion-Free Modality Interaction for Multimodal Retrieval
di: Ju, Yeong-Joon, et al.
Pubblicazione: (2024)

Naïve PAINE: Lightweight Text-to-Image Generation Improvement with Prompt Evaluation
di: Kim, Joong Ho, et al.
Pubblicazione: (2026)

PAR: Prompt-Aware Token Reduction Method for Efficient Large Multimodal Models
di: Liu, Yingen, et al.
Pubblicazione: (2024)

Discovering Pathology Rationale and Token Allocation for Efficient Multimodal Pathology Reasoning
di: Xu, Zhe, et al.
Pubblicazione: (2025)

MMR-AD: A Large-Scale Multimodal Dataset for Benchmarking General Anomaly Detection with Multimodal Large Language Models
di: Yao, Xincheng, et al.
Pubblicazione: (2026)

PTCMIL: Multiple Instance Learning via Prompt Token Clustering for Whole Slide Image Analysis
di: Zhao, Beidi, et al.
Pubblicazione: (2025)

TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation
di: Qu, Liao, et al.
Pubblicazione: (2024)

What "Not" to Detect: Negation-Aware VLMs via Structured Reasoning and Token Merging
di: Kang, Inha, et al.
Pubblicazione: (2025)

Evolving Prompt Adaptation for Vision-Language Models
di: Zhang, Enming, et al.
Pubblicazione: (2026)

MILR: Improving Multimodal Image Generation via Test-Time Latent Reasoning
di: Mi, Yapeng, et al.
Pubblicazione: (2025)

RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning
di: Wu, Mingrui, et al.
Pubblicazione: (2025)

Zero-Shot Industrial Anomaly Segmentation with Image-Aware Prompt Generation
di: Park, SoYoung, et al.
Pubblicazione: (2025)

Machine Mental Imagery: Empower Multimodal Reasoning with Latent Visual Tokens
di: Yang, Zeyuan, et al.
Pubblicazione: (2025)

Image-of-Thought Prompting for Visual Reasoning Refinement in Multimodal Large Language Models
di: Zhou, Qiji, et al.
Pubblicazione: (2024)

ClipTBP: Clip-Pair based Temporal Boundary Prediction with Boundary-Aware Learning for Moment Retrieval
di: Kim, Ji-Hyeon, et al.
Pubblicazione: (2026)

FIQ: Fundamental Question Generation with the Integration of Question Embeddings for Video Question Answering
di: Oh, Ju-Young, et al.
Pubblicazione: (2025)

Learning Hyperspectral Images with Curated Text Prompts for Efficient Multimodal Alignment
di: Chatterjee, Abhiroop, et al.
Pubblicazione: (2025)

Prompt-Aware Adapter: Towards Learning Adaptive Visual Tokens for Multimodal Large Language Models
di: Zhang, Yue, et al.
Pubblicazione: (2024)

Enhancing Multimodal In-Context Learning via Inductive-Deductive Reasoning
di: Wang, Haoyu, et al.
Pubblicazione: (2026)

Frequency-Aware Token Reduction for Efficient Vision Transformer
di: Lee, Dong-Jae, et al.
Pubblicazione: (2025)

Token Sequence Compression for Efficient Multimodal Computing
di: Omri, Yasmine, et al.
Pubblicazione: (2025)

Language-Guided Invariance Probing of Vision-Language Models
di: Lee, Jae Joong
Pubblicazione: (2025)

3DTurboQuant: Training-Free Near-Optimal Quantization for 3D Reconstruction Models
di: Lee, Jae Joong
Pubblicazione: (2026)

TokenMotion: Decoupled Motion Control via Token Disentanglement for Human-centric Video Generation
di: Li, Ruineng, et al.
Pubblicazione: (2025)

Perception Tokens Enhance Visual Reasoning in Multimodal Language Models
di: Bigverdi, Mahtab, et al.
Pubblicazione: (2024)

MaeFuse: Transferring Omni Features with Pretrained Masked Autoencoders for Infrared and Visible Image Fusion via Guided Training
di: Li, Jiayang, et al.
Pubblicazione: (2024)

SwiftVLM: Efficient Vision-Language Model Inference via Cross-Layer Token Bypass
di: Qian, Chen, et al.
Pubblicazione: (2026)

Look Before You Decide: Prompting Active Deduction of MLLMs for Assumptive Reasoning
di: Li, Yian, et al.
Pubblicazione: (2024)

Chain of Time: In-Context Physical Simulation with Image Generation Models
di: Wang, YingQiao, et al.
Pubblicazione: (2025)

CLIP Tricks You: Training-free Token Pruning for Efficient Pixel Grounding in Large VIsion-Language Models
di: Lee, Sangin, et al.
Pubblicazione: (2026)

LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token
di: Zhang, Shaolei, et al.
Pubblicazione: (2025)

Semantically Aware UAV Landing Site Assessment from Remote Sensing Imagery via Multimodal Large Language Models
di: Hua, Chunliang, et al.
Pubblicazione: (2026)

EgoPrune: Efficient Token Pruning for Egomotion Video Reasoning in Embodied Agent
di: Li, Jiaao, et al.
Pubblicazione: (2025)

Progressive Multimodal Search and Reasoning for Knowledge-Intensive Visual Question Answering
di: Choi, Changin, et al.
Pubblicazione: (2025)

Enhancing Generalization in Data-free Quantization via Mixup-class Prompting
di: Park, Jiwoong, et al.
Pubblicazione: (2025)

From Easy to Hard: The MIR Benchmark for Progressive Interleaved Multi-Image Reasoning
di: Du, Hang, et al.
Pubblicazione: (2025)

SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation
di: Chen, Zisheng, et al.
Pubblicazione: (2025)

CE-SDWV: Effective and Efficient Concept Erasure for Text-to-Image Diffusion Models via a Semantic-Driven Word Vocabulary
di: Tu, Jiahang, et al.
Pubblicazione: (2025)

Face-MakeUp: Multimodal Facial Prompts for Text-to-Image Generation
di: Dai, Dawei, et al.
Pubblicazione: (2025)