:: Library Catalog

Imagen de Portada

Guardado en:

Detalles Bibliográficos
Autores principales:	Li, Siqi, Shen, Yufan, Chen, Xiangnan, Chen, Jiayi, Ju, Hengwei, Duan, Haodong, Mao, Song, Zhou, Hongbin, Zhang, Bo, Fu, Bin, Cai, Pinlong, Wen, Licheng, Shi, Botian, Liu, Yong, Cai, Xinyu, Qiao, Yu
Formato:	Preprint
Publicado:	2025
Materias:	Computation and Language Computer Vision and Pattern Recognition
Acceso en línea:	https://arxiv.org/abs/2505.00063
Etiquetas:	Agregar Etiqueta Sin Etiquetas, Sea el primero en etiquetar este registro!

Ejemplares similares

UR-Bench: A Benchmark for Multi-Hop Reasoning over Ultra-High-Resolution Images
por: Li, Siqi, et al.
Publicado: (2025)

RE-Searcher: Robust Agentic Search with Goal-oriented Planning and Self-reflection
por: Fu, Daocheng, et al.
Publicado: (2025)

DiLu: A Knowledge-Driven Approach to Autonomous Driving with Large Language Models
por: Wen, Licheng, et al.
Publicado: (2023)

KG-TRACES: Enhancing Large Language Models with Knowledge Graph-constrained Trajectory Reasoning and Attribution Supervision
por: Wu, Rong, et al.
Publicado: (2025)

Investigating Redundancy in Multimodal Large Language Models with Multiple Vision Encoders
por: Wang, Yizhou, et al.
Publicado: (2025)

Aligning Vision to Language: Annotation-Free Multimodal Knowledge Graph Construction for Enhanced LLMs Reasoning
por: Liu, Junming, et al.
Publicado: (2025)

DeepWriter: A Fact-Grounded Multimodal Writing Assistant Based On Offline Knowledge Base
por: Mao, Song, et al.
Publicado: (2025)

Learning on the Job: An Experience-Driven Self-Evolving Agent for Long-Horizon Tasks
por: Yang, Cheng, et al.
Publicado: (2025)

EvolveR: Self-Evolving LLM Agents through an Experience-Driven Lifecycle
por: Wu, Rong, et al.
Publicado: (2025)

HetaRAG: Hybrid Deep Retrieval-Augmented Generation across Heterogeneous Data Stores
por: Yan, Guohang, et al.
Publicado: (2025)

Learning Only with Images: Visual Reinforcement Learning with Reasoning, Rendering, and Visual Feedback
por: Chen, Yang, et al.
Publicado: (2025)

From Ranking to Selection: A Simple but Efficient Dynamic Passage Selector for Retrieval Augmented Generation
por: Meng, Siyuan, et al.
Publicado: (2025)

O$^2$-Searcher: A Searching-based Agent Model for Open-Domain Open-Ended Question Answering
por: Mei, Jianbiao, et al.
Publicado: (2025)

TrafficMCTS: A Closed-Loop Traffic Flow Generation Framework with Group-Based Monte Carlo Tree Search
por: Fu, Ze, et al.
Publicado: (2023)

Continuously Learning, Adapting, and Improving: A Dual-Process Approach to Autonomous Driving
por: Mei, Jianbiao, et al.
Publicado: (2024)

Prism: A Framework for Decoupling and Assessing the Capabilities of VLMs
por: Qiao, Yuxuan, et al.
Publicado: (2024)

OASim: an Open and Adaptive Simulator based on Neural Rendering for Autonomous Driving
por: Yan, Guohang, et al.
Publicado: (2024)

LimSim Series: An Autonomous Driving Simulation Platform for Validation and Enhancement
por: Fu, Daocheng, et al.
Publicado: (2025)

LimSim++: A Closed-Loop Platform for Deploying Multimodal LLMs in Autonomous Driving
por: Fu, Daocheng, et al.
Publicado: (2024)

MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence
por: Yang, Sihan, et al.
Publicado: (2025)

NavBench: Probing Multimodal Large Language Models for Embodied Navigation
por: Qiao, Yanyuan, et al.
Publicado: (2025)

NeedleBench: Evaluating LLM Retrieval and Reasoning Across Varying Information Densities
por: Li, Mo, et al.
Publicado: (2024)

VGRP-Bench: Visual Grid Reasoning Puzzle Benchmark for Large Vision-Language Models
por: Ren, Yufan, et al.
Publicado: (2025)

SymDrive: Realistic and Controllable Driving Simulator via Symmetric Auto-regressive Online Restoration
por: Liu, Zhiyuan, et al.
Publicado: (2025)

MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark
por: Liu, Hongwei, et al.
Publicado: (2024)

MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding
por: Fang, Xinyu, et al.
Publicado: (2024)

IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video?
por: Chen, Yang, et al.
Publicado: (2025)

DriveArena: A Closed-loop Generative Simulation Platform for Autonomous Driving
por: Yang, Xuemeng, et al.
Publicado: (2024)

ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning
por: Xia, Renqiu, et al.
Publicado: (2024)

GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training
por: Xia, Renqiu, et al.
Publicado: (2024)

GIR-Bench: Versatile Benchmark for Generating Images with Reasoning
por: Li, Hongxiang, et al.
Publicado: (2025)

FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark
por: Fang, Rongyao, et al.
Publicado: (2025)

CompareBench: A Benchmark for Visual Comparison Reasoning in Vision-Language Models
por: Cai, Jie, et al.
Publicado: (2025)

Heaven-Sent or Hell-Bent? Benchmarking the Intelligence and Defectiveness of LLM Hallucinations
por: Yang, Chengxu, et al.
Publicado: (2025)

WildGraphBench: Benchmarking GraphRAG with Wild-Source Corpora
por: Wang, Pengyu, et al.
Publicado: (2026)

TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models
por: Chen, Harold Haodong, et al.
Publicado: (2025)

SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations
por: Yan, Xiangchao, et al.
Publicado: (2023)

DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models
por: Xia, Renqiu, et al.
Publicado: (2024)

SIV-Bench: A Video Benchmark for Social Interaction Understanding and Reasoning
por: Kong, Fanqi, et al.
Publicado: (2025)

CameraBench: Benchmarking Visual Reasoning in MLLMs via Photography
por: Fang, I-Sheng, et al.
Publicado: (2025)