Salvato in:
| Autori principali: | Choi, Joong Ho, Zhao, Jiayang, Appalla, Avani, Mukesh, Himansh, Vasani, Dhwanil, Qian, Boyi |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2026
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2604.02492 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
CompactPrompt: A Unified Pipeline for Prompt Data Compression in LLM Workflows
di: Choi, Joong Ho, et al.
Pubblicazione: (2025)
di: Choi, Joong Ho, et al.
Pubblicazione: (2025)
MIRe: Enhancing Multimodal Queries Representation via Fusion-Free Modality Interaction for Multimodal Retrieval
di: Ju, Yeong-Joon, et al.
Pubblicazione: (2024)
di: Ju, Yeong-Joon, et al.
Pubblicazione: (2024)
Naïve PAINE: Lightweight Text-to-Image Generation Improvement with Prompt Evaluation
di: Kim, Joong Ho, et al.
Pubblicazione: (2026)
di: Kim, Joong Ho, et al.
Pubblicazione: (2026)
PAR: Prompt-Aware Token Reduction Method for Efficient Large Multimodal Models
di: Liu, Yingen, et al.
Pubblicazione: (2024)
di: Liu, Yingen, et al.
Pubblicazione: (2024)
Discovering Pathology Rationale and Token Allocation for Efficient Multimodal Pathology Reasoning
di: Xu, Zhe, et al.
Pubblicazione: (2025)
di: Xu, Zhe, et al.
Pubblicazione: (2025)
MMR-AD: A Large-Scale Multimodal Dataset for Benchmarking General Anomaly Detection with Multimodal Large Language Models
di: Yao, Xincheng, et al.
Pubblicazione: (2026)
di: Yao, Xincheng, et al.
Pubblicazione: (2026)
PTCMIL: Multiple Instance Learning via Prompt Token Clustering for Whole Slide Image Analysis
di: Zhao, Beidi, et al.
Pubblicazione: (2025)
di: Zhao, Beidi, et al.
Pubblicazione: (2025)
TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation
di: Qu, Liao, et al.
Pubblicazione: (2024)
di: Qu, Liao, et al.
Pubblicazione: (2024)
What "Not" to Detect: Negation-Aware VLMs via Structured Reasoning and Token Merging
di: Kang, Inha, et al.
Pubblicazione: (2025)
di: Kang, Inha, et al.
Pubblicazione: (2025)
Evolving Prompt Adaptation for Vision-Language Models
di: Zhang, Enming, et al.
Pubblicazione: (2026)
di: Zhang, Enming, et al.
Pubblicazione: (2026)
MILR: Improving Multimodal Image Generation via Test-Time Latent Reasoning
di: Mi, Yapeng, et al.
Pubblicazione: (2025)
di: Mi, Yapeng, et al.
Pubblicazione: (2025)
RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning
di: Wu, Mingrui, et al.
Pubblicazione: (2025)
di: Wu, Mingrui, et al.
Pubblicazione: (2025)
Zero-Shot Industrial Anomaly Segmentation with Image-Aware Prompt Generation
di: Park, SoYoung, et al.
Pubblicazione: (2025)
di: Park, SoYoung, et al.
Pubblicazione: (2025)
Machine Mental Imagery: Empower Multimodal Reasoning with Latent Visual Tokens
di: Yang, Zeyuan, et al.
Pubblicazione: (2025)
di: Yang, Zeyuan, et al.
Pubblicazione: (2025)
Image-of-Thought Prompting for Visual Reasoning Refinement in Multimodal Large Language Models
di: Zhou, Qiji, et al.
Pubblicazione: (2024)
di: Zhou, Qiji, et al.
Pubblicazione: (2024)
ClipTBP: Clip-Pair based Temporal Boundary Prediction with Boundary-Aware Learning for Moment Retrieval
di: Kim, Ji-Hyeon, et al.
Pubblicazione: (2026)
di: Kim, Ji-Hyeon, et al.
Pubblicazione: (2026)
FIQ: Fundamental Question Generation with the Integration of Question Embeddings for Video Question Answering
di: Oh, Ju-Young, et al.
Pubblicazione: (2025)
di: Oh, Ju-Young, et al.
Pubblicazione: (2025)
Learning Hyperspectral Images with Curated Text Prompts for Efficient Multimodal Alignment
di: Chatterjee, Abhiroop, et al.
Pubblicazione: (2025)
di: Chatterjee, Abhiroop, et al.
Pubblicazione: (2025)
Prompt-Aware Adapter: Towards Learning Adaptive Visual Tokens for Multimodal Large Language Models
di: Zhang, Yue, et al.
Pubblicazione: (2024)
di: Zhang, Yue, et al.
Pubblicazione: (2024)
Enhancing Multimodal In-Context Learning via Inductive-Deductive Reasoning
di: Wang, Haoyu, et al.
Pubblicazione: (2026)
di: Wang, Haoyu, et al.
Pubblicazione: (2026)
Frequency-Aware Token Reduction for Efficient Vision Transformer
di: Lee, Dong-Jae, et al.
Pubblicazione: (2025)
di: Lee, Dong-Jae, et al.
Pubblicazione: (2025)
Token Sequence Compression for Efficient Multimodal Computing
di: Omri, Yasmine, et al.
Pubblicazione: (2025)
di: Omri, Yasmine, et al.
Pubblicazione: (2025)
Language-Guided Invariance Probing of Vision-Language Models
di: Lee, Jae Joong
Pubblicazione: (2025)
di: Lee, Jae Joong
Pubblicazione: (2025)
3DTurboQuant: Training-Free Near-Optimal Quantization for 3D Reconstruction Models
di: Lee, Jae Joong
Pubblicazione: (2026)
di: Lee, Jae Joong
Pubblicazione: (2026)
TokenMotion: Decoupled Motion Control via Token Disentanglement for Human-centric Video Generation
di: Li, Ruineng, et al.
Pubblicazione: (2025)
di: Li, Ruineng, et al.
Pubblicazione: (2025)
Perception Tokens Enhance Visual Reasoning in Multimodal Language Models
di: Bigverdi, Mahtab, et al.
Pubblicazione: (2024)
di: Bigverdi, Mahtab, et al.
Pubblicazione: (2024)
MaeFuse: Transferring Omni Features with Pretrained Masked Autoencoders for Infrared and Visible Image Fusion via Guided Training
di: Li, Jiayang, et al.
Pubblicazione: (2024)
di: Li, Jiayang, et al.
Pubblicazione: (2024)
SwiftVLM: Efficient Vision-Language Model Inference via Cross-Layer Token Bypass
di: Qian, Chen, et al.
Pubblicazione: (2026)
di: Qian, Chen, et al.
Pubblicazione: (2026)
Look Before You Decide: Prompting Active Deduction of MLLMs for Assumptive Reasoning
di: Li, Yian, et al.
Pubblicazione: (2024)
di: Li, Yian, et al.
Pubblicazione: (2024)
Chain of Time: In-Context Physical Simulation with Image Generation Models
di: Wang, YingQiao, et al.
Pubblicazione: (2025)
di: Wang, YingQiao, et al.
Pubblicazione: (2025)
CLIP Tricks You: Training-free Token Pruning for Efficient Pixel Grounding in Large VIsion-Language Models
di: Lee, Sangin, et al.
Pubblicazione: (2026)
di: Lee, Sangin, et al.
Pubblicazione: (2026)
LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token
di: Zhang, Shaolei, et al.
Pubblicazione: (2025)
di: Zhang, Shaolei, et al.
Pubblicazione: (2025)
Semantically Aware UAV Landing Site Assessment from Remote Sensing Imagery via Multimodal Large Language Models
di: Hua, Chunliang, et al.
Pubblicazione: (2026)
di: Hua, Chunliang, et al.
Pubblicazione: (2026)
EgoPrune: Efficient Token Pruning for Egomotion Video Reasoning in Embodied Agent
di: Li, Jiaao, et al.
Pubblicazione: (2025)
di: Li, Jiaao, et al.
Pubblicazione: (2025)
Progressive Multimodal Search and Reasoning for Knowledge-Intensive Visual Question Answering
di: Choi, Changin, et al.
Pubblicazione: (2025)
di: Choi, Changin, et al.
Pubblicazione: (2025)
Enhancing Generalization in Data-free Quantization via Mixup-class Prompting
di: Park, Jiwoong, et al.
Pubblicazione: (2025)
di: Park, Jiwoong, et al.
Pubblicazione: (2025)
From Easy to Hard: The MIR Benchmark for Progressive Interleaved Multi-Image Reasoning
di: Du, Hang, et al.
Pubblicazione: (2025)
di: Du, Hang, et al.
Pubblicazione: (2025)
SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation
di: Chen, Zisheng, et al.
Pubblicazione: (2025)
di: Chen, Zisheng, et al.
Pubblicazione: (2025)
CE-SDWV: Effective and Efficient Concept Erasure for Text-to-Image Diffusion Models via a Semantic-Driven Word Vocabulary
di: Tu, Jiahang, et al.
Pubblicazione: (2025)
di: Tu, Jiahang, et al.
Pubblicazione: (2025)
Face-MakeUp: Multimodal Facial Prompts for Text-to-Image Generation
di: Dai, Dawei, et al.
Pubblicazione: (2025)
di: Dai, Dawei, et al.
Pubblicazione: (2025)
Documenti analoghi
-
CompactPrompt: A Unified Pipeline for Prompt Data Compression in LLM Workflows
di: Choi, Joong Ho, et al.
Pubblicazione: (2025) -
MIRe: Enhancing Multimodal Queries Representation via Fusion-Free Modality Interaction for Multimodal Retrieval
di: Ju, Yeong-Joon, et al.
Pubblicazione: (2024) -
Naïve PAINE: Lightweight Text-to-Image Generation Improvement with Prompt Evaluation
di: Kim, Joong Ho, et al.
Pubblicazione: (2026) -
PAR: Prompt-Aware Token Reduction Method for Efficient Large Multimodal Models
di: Liu, Yingen, et al.
Pubblicazione: (2024) -
Discovering Pathology Rationale and Token Allocation for Efficient Multimodal Pathology Reasoning
di: Xu, Zhe, et al.
Pubblicazione: (2025)