:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Luo, Yulin, An, Ruichuan, Zou, Bocheng, Tang, Yiming, Liu, Jiaming, Zhang, Shanghang
Format:	Preprint
Publié:	2024
Sujets:	Computer Vision and Pattern Recognition Computation and Language
Accès en ligne:	https://arxiv.org/abs/2405.02363
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

MoSA: Mixture of Sparse Adapters for Visual Efficient Tuning
par: Zhang, Qizhe, et autres
Publié: (2023)

Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want
par: Lin, Weifeng, et autres
Publié: (2024)

Agent Skills Should Go Beyond Text: The Case for Visual Skills
par: Xu, Binxiao, et autres
Publié: (2026)

Debiasing Multimodal Large Language Models via Noise-Aware Preference Optimization
par: Zhang, Zefeng, et autres
Publié: (2025)

MC-LLaVA: Multi-Concept Personalized Vision-Language Model
par: An, Ruichuan, et autres
Publié: (2025)

Benchmarking Large Language Models for Image Classification of Marine Mammals
par: Qi, Yijiashun, et autres
Publié: (2024)

LayoutLLM: Layout Instruction Tuning with Large Language Models for Document Understanding
par: Luo, Chuwei, et autres
Publié: (2024)

Robobench: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models as Embodied Brain
par: Luo, Yulin, et autres
Publié: (2025)

Video Understanding with Large Language Models: A Survey
par: Tang, Yolo Y., et autres
Publié: (2023)

SpikeGen: Decoupled "Rods and Cones" Visual Representation Processing with Latent Generative Framework
par: Dai, Gaole, et autres
Publié: (2025)

UniCTokens: Boosting Personalized Understanding and Generation via Unified Concept Tokens
par: An, Ruichuan, et autres
Publié: (2025)

VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment
par: Li, Lei, et autres
Publié: (2024)

SignLLM: Sign Language Production Large Language Models
par: Fang, Sen, et autres
Publié: (2024)

MC-LLaVA: Multi-Concept Personalized Vision-Language Model
par: An, Ruichuan, et autres
Publié: (2024)

OpenOmni: Advancing Open-Source Omnimodal Large Language Models with Progressive Multimodal Alignment and Real-Time Self-Aware Emotional Speech Synthesis
par: Luo, Run, et autres
Publié: (2025)

Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models
par: Li, Lei, et autres
Publié: (2024)

Correctable Landmark Discovery via Large Models for Vision-Language Navigation
par: Lin, Bingqian, et autres
Publié: (2024)

DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception
par: Luo, Run, et autres
Publié: (2024)

OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models
par: Yu, Wenwen, et autres
Publié: (2025)

Causal-SAM-LLM: Large Language Models as Causal Reasoners for Robust Medical Segmentation
par: Tang, Tao, et autres
Publié: (2025)

ERVQA: A Dataset to Benchmark the Readiness of Large Vision Language Models in Hospital Environments
par: Ray, Sourjyadip, et autres
Publié: (2024)

Rethinking Multilingual Vision-Language Translation: Dataset, Evaluation, and Adaptation
par: Wang, Xintong, et autres
Publié: (2025)

MMRA: A Benchmark for Evaluating Multi-Granularity and Multi-Image Relational Association Capabilities in Large Visual Language Models
par: Wu, Siwei, et autres
Publié: (2024)

Vision-centric Token Compression in Large Language Model
par: Xing, Ling, et autres
Publié: (2025)

LLMVA-GEBC: Large Language Model with Video Adapter for Generic Event Boundary Captioning
par: Tang, Yolo Yunlong, et autres
Publié: (2023)

LLM Post-Training: A Deep Dive into Reasoning Large Language Models
par: Kumar, Komal, et autres
Publié: (2025)

HyperVL: An Efficient and Dynamic Multimodal Large Language Model for Edge Devices
par: HyperAI Team, et autres
Publié: (2025)

Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training
par: Chen, Xinyan, et autres
Publié: (2023)

Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding
par: Tang, Yiwen, et autres
Publié: (2024)

Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization
par: Pi, Renjie, et autres
Publié: (2024)

Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models
par: Luo, Yulin, et autres
Publié: (2026)

Evi-Steer: Learning to Steer Biomedical Vision-Language Models through Efficient and Generalizable Evidential Tuning
par: Koleilat, Taha, et autres
Publié: (2026)

BiomedCoOp: Learning to Prompt for Biomedical Vision-Language Models
par: Koleilat, Taha, et autres
Publié: (2024)

URPO: A Unified Reward & Policy Optimization Framework for Large Language Models
par: Lu, Songshuo, et autres
Publié: (2025)

Evaluating Large Language Models on Multimodal Chemistry Olympiad Exams
par: Cui, Yiming, et autres
Publié: (2025)

Enhancing Large Vision Language Models with Self-Training on Image Comprehension
par: Deng, Yihe, et autres
Publié: (2024)

Model Composition for Multimodal Large Language Models
par: Chen, Chi, et autres
Publié: (2024)

STORM: Internalized Modeling for Spatial-Temporal Reasoning in Video-Language Models
par: Liang, Yiming, et autres
Publié: (2026)

Adaptive Vision-Language Model Routing for Computer Use Agents
par: Liu, Xunzhuo, et autres
Publié: (2026)

VividMed: Vision Language Model with Versatile Visual Grounding for Medicine
par: Luo, Lingxiao, et autres
Publié: (2024)