Enregistré dans:
| Auteurs principaux: | Luo, Yulin, An, Ruichuan, Zou, Bocheng, Tang, Yiming, Liu, Jiaming, Zhang, Shanghang |
|---|---|
| Format: | Preprint |
| Publié: |
2024
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2405.02363 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
MoSA: Mixture of Sparse Adapters for Visual Efficient Tuning
par: Zhang, Qizhe, et autres
Publié: (2023)
par: Zhang, Qizhe, et autres
Publié: (2023)
Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want
par: Lin, Weifeng, et autres
Publié: (2024)
par: Lin, Weifeng, et autres
Publié: (2024)
Agent Skills Should Go Beyond Text: The Case for Visual Skills
par: Xu, Binxiao, et autres
Publié: (2026)
par: Xu, Binxiao, et autres
Publié: (2026)
Debiasing Multimodal Large Language Models via Noise-Aware Preference Optimization
par: Zhang, Zefeng, et autres
Publié: (2025)
par: Zhang, Zefeng, et autres
Publié: (2025)
MC-LLaVA: Multi-Concept Personalized Vision-Language Model
par: An, Ruichuan, et autres
Publié: (2025)
par: An, Ruichuan, et autres
Publié: (2025)
Benchmarking Large Language Models for Image Classification of Marine Mammals
par: Qi, Yijiashun, et autres
Publié: (2024)
par: Qi, Yijiashun, et autres
Publié: (2024)
LayoutLLM: Layout Instruction Tuning with Large Language Models for Document Understanding
par: Luo, Chuwei, et autres
Publié: (2024)
par: Luo, Chuwei, et autres
Publié: (2024)
Robobench: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models as Embodied Brain
par: Luo, Yulin, et autres
Publié: (2025)
par: Luo, Yulin, et autres
Publié: (2025)
Video Understanding with Large Language Models: A Survey
par: Tang, Yolo Y., et autres
Publié: (2023)
par: Tang, Yolo Y., et autres
Publié: (2023)
SpikeGen: Decoupled "Rods and Cones" Visual Representation Processing with Latent Generative Framework
par: Dai, Gaole, et autres
Publié: (2025)
par: Dai, Gaole, et autres
Publié: (2025)
UniCTokens: Boosting Personalized Understanding and Generation via Unified Concept Tokens
par: An, Ruichuan, et autres
Publié: (2025)
par: An, Ruichuan, et autres
Publié: (2025)
VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment
par: Li, Lei, et autres
Publié: (2024)
par: Li, Lei, et autres
Publié: (2024)
SignLLM: Sign Language Production Large Language Models
par: Fang, Sen, et autres
Publié: (2024)
par: Fang, Sen, et autres
Publié: (2024)
MC-LLaVA: Multi-Concept Personalized Vision-Language Model
par: An, Ruichuan, et autres
Publié: (2024)
par: An, Ruichuan, et autres
Publié: (2024)
OpenOmni: Advancing Open-Source Omnimodal Large Language Models with Progressive Multimodal Alignment and Real-Time Self-Aware Emotional Speech Synthesis
par: Luo, Run, et autres
Publié: (2025)
par: Luo, Run, et autres
Publié: (2025)
Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models
par: Li, Lei, et autres
Publié: (2024)
par: Li, Lei, et autres
Publié: (2024)
Correctable Landmark Discovery via Large Models for Vision-Language Navigation
par: Lin, Bingqian, et autres
Publié: (2024)
par: Lin, Bingqian, et autres
Publié: (2024)
DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception
par: Luo, Run, et autres
Publié: (2024)
par: Luo, Run, et autres
Publié: (2024)
OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models
par: Yu, Wenwen, et autres
Publié: (2025)
par: Yu, Wenwen, et autres
Publié: (2025)
Causal-SAM-LLM: Large Language Models as Causal Reasoners for Robust Medical Segmentation
par: Tang, Tao, et autres
Publié: (2025)
par: Tang, Tao, et autres
Publié: (2025)
ERVQA: A Dataset to Benchmark the Readiness of Large Vision Language Models in Hospital Environments
par: Ray, Sourjyadip, et autres
Publié: (2024)
par: Ray, Sourjyadip, et autres
Publié: (2024)
Rethinking Multilingual Vision-Language Translation: Dataset, Evaluation, and Adaptation
par: Wang, Xintong, et autres
Publié: (2025)
par: Wang, Xintong, et autres
Publié: (2025)
MMRA: A Benchmark for Evaluating Multi-Granularity and Multi-Image Relational Association Capabilities in Large Visual Language Models
par: Wu, Siwei, et autres
Publié: (2024)
par: Wu, Siwei, et autres
Publié: (2024)
Vision-centric Token Compression in Large Language Model
par: Xing, Ling, et autres
Publié: (2025)
par: Xing, Ling, et autres
Publié: (2025)
LLMVA-GEBC: Large Language Model with Video Adapter for Generic Event Boundary Captioning
par: Tang, Yolo Yunlong, et autres
Publié: (2023)
par: Tang, Yolo Yunlong, et autres
Publié: (2023)
LLM Post-Training: A Deep Dive into Reasoning Large Language Models
par: Kumar, Komal, et autres
Publié: (2025)
par: Kumar, Komal, et autres
Publié: (2025)
HyperVL: An Efficient and Dynamic Multimodal Large Language Model for Edge Devices
par: HyperAI Team, et autres
Publié: (2025)
par: HyperAI Team, et autres
Publié: (2025)
Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training
par: Chen, Xinyan, et autres
Publié: (2023)
par: Chen, Xinyan, et autres
Publié: (2023)
Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding
par: Tang, Yiwen, et autres
Publié: (2024)
par: Tang, Yiwen, et autres
Publié: (2024)
Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization
par: Pi, Renjie, et autres
Publié: (2024)
par: Pi, Renjie, et autres
Publié: (2024)
Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models
par: Luo, Yulin, et autres
Publié: (2026)
par: Luo, Yulin, et autres
Publié: (2026)
Evi-Steer: Learning to Steer Biomedical Vision-Language Models through Efficient and Generalizable Evidential Tuning
par: Koleilat, Taha, et autres
Publié: (2026)
par: Koleilat, Taha, et autres
Publié: (2026)
BiomedCoOp: Learning to Prompt for Biomedical Vision-Language Models
par: Koleilat, Taha, et autres
Publié: (2024)
par: Koleilat, Taha, et autres
Publié: (2024)
URPO: A Unified Reward & Policy Optimization Framework for Large Language Models
par: Lu, Songshuo, et autres
Publié: (2025)
par: Lu, Songshuo, et autres
Publié: (2025)
Evaluating Large Language Models on Multimodal Chemistry Olympiad Exams
par: Cui, Yiming, et autres
Publié: (2025)
par: Cui, Yiming, et autres
Publié: (2025)
Enhancing Large Vision Language Models with Self-Training on Image Comprehension
par: Deng, Yihe, et autres
Publié: (2024)
par: Deng, Yihe, et autres
Publié: (2024)
Model Composition for Multimodal Large Language Models
par: Chen, Chi, et autres
Publié: (2024)
par: Chen, Chi, et autres
Publié: (2024)
STORM: Internalized Modeling for Spatial-Temporal Reasoning in Video-Language Models
par: Liang, Yiming, et autres
Publié: (2026)
par: Liang, Yiming, et autres
Publié: (2026)
Adaptive Vision-Language Model Routing for Computer Use Agents
par: Liu, Xunzhuo, et autres
Publié: (2026)
par: Liu, Xunzhuo, et autres
Publié: (2026)
VividMed: Vision Language Model with Versatile Visual Grounding for Medicine
par: Luo, Lingxiao, et autres
Publié: (2024)
par: Luo, Lingxiao, et autres
Publié: (2024)
Documents similaires
-
MoSA: Mixture of Sparse Adapters for Visual Efficient Tuning
par: Zhang, Qizhe, et autres
Publié: (2023) -
Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want
par: Lin, Weifeng, et autres
Publié: (2024) -
Agent Skills Should Go Beyond Text: The Case for Visual Skills
par: Xu, Binxiao, et autres
Publié: (2026) -
Debiasing Multimodal Large Language Models via Noise-Aware Preference Optimization
par: Zhang, Zefeng, et autres
Publié: (2025) -
MC-LLaVA: Multi-Concept Personalized Vision-Language Model
par: An, Ruichuan, et autres
Publié: (2025)