:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Li, Xuchen, Hu, Shiyu, Feng, Xiaokun, Zhang, Dailing, Wu, Meiqi, Zhang, Jing, Huang, Kaiqi
Natura:	Preprint
Pubblicazione:	2024
Soggetti:	Computer Vision and Pattern Recognition Computation and Language
Accesso online:	https://arxiv.org/abs/2410.02492
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Visual Language Tracking with Multi-modal Interaction: A Robust Benchmark
di: Li, Xuchen, et al.
Pubblicazione: (2024)

DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM
di: Li, Xuchen, et al.
Pubblicazione: (2024)

How Texts Help? A Fine-grained Evaluation to Reveal the Role of Language in Vision-Language Tracking
di: Li, Xuchen, et al.
Pubblicazione: (2024)

VS-LLM: Visual-Semantic Depression Assessment based on LLM for Drawing Projection Test
di: Wu, Meiqi, et al.
Pubblicazione: (2025)

CausalStep: A Benchmark for Explicit Stepwise Causal Reasoning in Videos
di: Li, Xuchen, et al.
Pubblicazione: (2025)

KOALA: Enhancing Speculative Decoding for LLM via Multi-Layer Draft Heads with Adversarial Learning
di: Zhang, Kaiqi, et al.
Pubblicazione: (2024)

STEMVerse: A Dual-Axis Diagnostic Framework for STEM Reasoning in Large Language Models
di: Li, Xuzhao, et al.
Pubblicazione: (2026)

Pronunciation Assessment with Multi-modal Large Language Models
di: Fu, Kaiqi, et al.
Pubblicazione: (2024)

Select Less, Reason More: Prioritizing Evidence Purity for Video Reasoning
di: Li, Xuchen, et al.
Pubblicazione: (2025)

Do VLMs Truly "Read" Candlesticks? A Multi-Scale Benchmark for Visual Stock Price Forecasting
di: Hu, Kaiqi, et al.
Pubblicazione: (2026)

Customizing Visual-Language Foundation Models for Multi-modal Anomaly Detection and Reasoning
di: Xu, Xiaohao, et al.
Pubblicazione: (2024)

Finger in Camera Speaks Everything: Unconstrained Air-Writing for Real-World
di: Wu, Meiqi, et al.
Pubblicazione: (2024)

OneEval: Benchmarking LLM Knowledge-intensive Reasoning over Diverse Knowledge Bases
di: Chen, Yongrui, et al.
Pubblicazione: (2025)

SEAL: Can Saturated Benchmarks Be Revived by LLM-as-a-Meta-Judge?
di: Chen, Jiamin, et al.
Pubblicazione: (2026)

Why Only Text: Empowering Vision-and-Language Navigation with Multi-modal Prompts
di: Hong, Haodong, et al.
Pubblicazione: (2024)

HITSZ's End-To-End Speech Translation Systems Combining Sequence-to-Sequence Auto Speech Recognition Model and Indic Large Language Model for IWSLT 2025 in Indic Track
di: Wei, Xuchen, et al.
Pubblicazione: (2025)

Automata-Based Steering of Large Language Models for Diverse Structured Generation
di: Luan, Xiaokun, et al.
Pubblicazione: (2025)

How Much Do Large Language Model Cheat on Evaluation? Benchmarking Overestimation under the One-Time-Pad-Based Framework
di: Liang, Zi, et al.
Pubblicazione: (2025)

CRAT: A Multi-Agent Framework for Causality-Enhanced Reflective and Retrieval-Augmented Translation with Large Language Models
di: Chen, Meiqi, et al.
Pubblicazione: (2024)

Differences in Text Generated by Diffusion and Autoregressive Language Models
di: Zhang, Zeyang, et al.
Pubblicazione: (2026)

Multi-modal Retrieval Augmented Multi-modal Generation: Datasets, Evaluation Metrics and Strong Baselines
di: Ma, Zi-Ao, et al.
Pubblicazione: (2024)

Transitivity Meets Cyclicity: Explicit Preference Decomposition for Dynamic Large Language Model Alignment
di: Huang, Yucong, et al.
Pubblicazione: (2026)

MultiBreak: A Scalable and Diverse Multi-turn Jailbreak Benchmark for Evaluating LLM Safety
di: Song, Jialin, et al.
Pubblicazione: (2026)

Visual-RAG: Benchmarking Text-to-Image Retrieval Augmented Generation for Visual Knowledge Intensive Queries
di: Wu, Yin, et al.
Pubblicazione: (2025)

Text2Vis: A Challenging and Diverse Benchmark for Generating Multimodal Visualizations from Text
di: Rahman, Mizanur, et al.
Pubblicazione: (2025)

SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval
di: Wu, Siwei, et al.
Pubblicazione: (2024)

Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment
di: Zhang, Ming, et al.
Pubblicazione: (2024)

MulCogBench: A Multi-modal Cognitive Benchmark Dataset for Evaluating Chinese and English Computational Language Models
di: Zhang, Yunhao, et al.
Pubblicazione: (2024)

GroupMemBench: Benchmarking LLM Agent Memory in Multi-Party Conversations
di: Yang, Jingbo, et al.
Pubblicazione: (2026)

TALEC: Teach Your LLM to Evaluate in Specific Domain with In-house Criteria by Criteria Division and Zero-shot Plus Few-shot
di: Zhang, Kaiqi, et al.
Pubblicazione: (2024)

LLM-Based Multi-Agent Systems are Scalable Graph Generative Models
di: Ji, Jiarui, et al.
Pubblicazione: (2024)

Can Perplexity Reflect Large Language Model's Ability in Long Text Understanding?
di: Hu, Yutong, et al.
Pubblicazione: (2024)

DARTer: Dynamic Adaptive Representation Tracker for Nighttime UAV Tracking
di: Li, Xuzhao, et al.
Pubblicazione: (2025)

DEEPAMBIGQA: Ambiguous Multi-hop Questions for Benchmarking LLM Answer Completeness
di: Ji, Jiabao, et al.
Pubblicazione: (2025)

NYK-MS: A Well-annotated Multi-modal Metaphor and Sarcasm Understanding Benchmark on Cartoon-Caption Dataset
di: Chang, Ke, et al.
Pubblicazione: (2024)

Latent Temporal Discrepancy as Motion Prior: A Loss-Weighting Strategy for Dynamic Fidelity in T2V
di: Wu, Meiqi, et al.
Pubblicazione: (2026)

Safe Reinforcement Learning with Free-form Natural Language Constraints and Pre-Trained Language Models
di: Lou, Xingzhou, et al.
Pubblicazione: (2024)

MMRA: A Benchmark for Evaluating Multi-Granularity and Multi-Image Relational Association Capabilities in Large Visual Language Models
di: Wu, Siwei, et al.
Pubblicazione: (2024)

CMMaTH: A Chinese Multi-modal Math Skill Evaluation Benchmark for Foundation Models
di: Li, Zhong-Zhi, et al.
Pubblicazione: (2024)

Unleashing the Potentials of Likelihood Composition for Multi-modal Language Models
di: Zhao, Shitian, et al.
Pubblicazione: (2024)