:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Wu, Meiqi, Kang, Yaxuan, Li, Xuchen, Hu, Shiyu, Chen, Xiaotang, Kang, Yunfeng, Wang, Weiqiang, Huang, Kaiqi
Format:	Preprint
Publié:	2025
Sujets:	Computer Vision and Pattern Recognition Artificial Intelligence
Accès en ligne:	https://arxiv.org/abs/2508.05299
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM
par: Li, Xuchen, et autres
Publié: (2024)

DTVLT: A Multi-modal Diverse Text Benchmark for Visual Language Tracking Based on LLM
par: Li, Xuchen, et autres
Publié: (2024)

Visual Language Tracking with Multi-modal Interaction: A Robust Benchmark
par: Li, Xuchen, et autres
Publié: (2024)

Finger in Camera Speaks Everything: Unconstrained Air-Writing for Real-World
par: Wu, Meiqi, et autres
Publié: (2024)

How Texts Help? A Fine-grained Evaluation to Reveal the Role of Language in Vision-Language Tracking
par: Li, Xuchen, et autres
Publié: (2024)

Select Less, Reason More: Prioritizing Evidence Purity for Video Reasoning
par: Li, Xuchen, et autres
Publié: (2025)

CausalStep: A Benchmark for Explicit Stepwise Causal Reasoning in Videos
par: Li, Xuchen, et autres
Publié: (2025)

ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints
par: Wu, Meiqi, et autres
Publié: (2025)

MATrack: Efficient Multiscale Adaptive Tracker for Real-Time Nighttime UAV Operations
par: Li, Xuzhao, et autres
Publié: (2025)

EduVerse: A User-Defined Multi-Agent Simulation Space for Education Scenario
par: Ma, Yiping, et autres
Publié: (2025)

DARTer: Dynamic Adaptive Representation Tracker for Nighttime UAV Tracking
par: Li, Xuzhao, et autres
Publié: (2025)

Beyond Accuracy: Evaluating Grounded Visual Evidence in Thinking with Images
par: Li, Xuchen, et autres
Publié: (2026)

FIOVA: A Multi-Annotator Benchmark for Human-Aligned Video Captioning
par: Hu, Shiyu, et autres
Publié: (2024)

When LLMs Learn to be Students: The SOEI Framework for Modeling and Evaluating Virtual Student Agents in Educational Interaction
par: Ma, Yiping, et autres
Publié: (2024)

Latent Temporal Discrepancy as Motion Prior: A Loss-Weighting Strategy for Dynamic Fidelity in T2V
par: Wu, Meiqi, et autres
Publié: (2026)

MagicFuse: Single Image Fusion for Visual and Semantic Reinforcement
par: Zhang, Hao, et autres
Publié: (2026)

In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation
par: Kang, Dahyun, et autres
Publié: (2024)

PointT2I: LLM-based text-to-image generation via keypoints
par: Lee, Taekyung, et autres
Publié: (2025)

3DrawAgent: Teaching LLM to Draw in 3D with Early Contrastive Experience
par: Xiao, Hongcan, et autres
Publié: (2026)

VisualPrompter: Semantic-Aware Prompt Optimization with Visual Feedback for Text-to-Image Synthesis
par: Wu, Shiyu, et autres
Publié: (2025)

TemCoCo: Temporally Consistent Multi-modal Video Fusion with Visual-Semantic Collaboration
par: Gong, Meiqi, et autres
Publié: (2025)

Assessment of Autism and ADHD: A Comparative Analysis of Drawing Velocity Profiles and the NEPSY Test
par: Fortea-Sevilla, S., et autres
Publié: (2024)

A Deep Learning Framework for Boundary-Aware Semantic Segmentation
par: An, Tai, et autres
Publié: (2025)

SeCG: Semantic-Enhanced 3D Visual Grounding via Cross-modal Graph Attention
par: Xiao, Feng, et autres
Publié: (2024)

Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image Personalization
par: Lv, Henglei, et autres
Publié: (2024)

MedThink: Explaining Medical Visual Question Answering via Multimodal Decision-Making Rationale
par: Gai, Xiaotang, et autres
Publié: (2024)

Semantic Draw Engineering for Text-to-Image Creation
par: Li, Yang, et autres
Publié: (2023)

Semantic Visual Simultaneous Localization and Mapping: A Survey
par: Chen, Kaiqi, et autres
Publié: (2022)

Look Less, Reason More: Rollout-Guided Adaptive Pixel-Space Reasoning
par: Li, Xuchen, et autres
Publié: (2025)

Paintings and Drawings Aesthetics Assessment with Rich Attributes for Various Artistic Categories
par: Jin, Xin, et autres
Publié: (2024)

Cross-Stage Attention Propagation for Efficient Semantic Segmentation
par: Kang, Beoungwoo
Publié: (2026)

KeyframeFace: Language-Driven Facial Animation via Semantic Keyframes
par: Wu, Jingchao, et autres
Publié: (2025)

MergeSAM: Unsupervised change detection of remote sensing images based on the Segment Anything Model
par: Hu, Meiqi, et autres
Publié: (2025)

Information transmission: Inferring change area from change moment in time series remote sensing images
par: Li, Jialu, et autres
Publié: (2025)

Towards Semantic Equivalence of Tokenization in Multimodal LLM
par: Wu, Shengqiong, et autres
Publié: (2024)

LocLLM: Exploiting Generalizable Human Keypoint Localization via Large Language Model
par: Wang, Dongkai, et autres
Publié: (2024)

Subspace Prototype Guidance for Mitigating Class Imbalance in Point Cloud Semantic Segmentation
par: Han, Jiawei, et autres
Publié: (2024)

WIPES: Wavelet-based Visual Primitives
par: Zhang, Wenhao, et autres
Publié: (2025)

Does VLM Classification Benefit from LLM Description Semantics?
par: Ma, Pingchuan, et autres
Publié: (2024)

ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment
par: Hu, Xiwei, et autres
Publié: (2024)