Enregistré dans:
| Auteurs principaux: | Wu, Meiqi, Kang, Yaxuan, Li, Xuchen, Hu, Shiyu, Chen, Xiaotang, Kang, Yunfeng, Wang, Weiqiang, Huang, Kaiqi |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2508.05299 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM
par: Li, Xuchen, et autres
Publié: (2024)
par: Li, Xuchen, et autres
Publié: (2024)
DTVLT: A Multi-modal Diverse Text Benchmark for Visual Language Tracking Based on LLM
par: Li, Xuchen, et autres
Publié: (2024)
par: Li, Xuchen, et autres
Publié: (2024)
Visual Language Tracking with Multi-modal Interaction: A Robust Benchmark
par: Li, Xuchen, et autres
Publié: (2024)
par: Li, Xuchen, et autres
Publié: (2024)
Finger in Camera Speaks Everything: Unconstrained Air-Writing for Real-World
par: Wu, Meiqi, et autres
Publié: (2024)
par: Wu, Meiqi, et autres
Publié: (2024)
How Texts Help? A Fine-grained Evaluation to Reveal the Role of Language in Vision-Language Tracking
par: Li, Xuchen, et autres
Publié: (2024)
par: Li, Xuchen, et autres
Publié: (2024)
Select Less, Reason More: Prioritizing Evidence Purity for Video Reasoning
par: Li, Xuchen, et autres
Publié: (2025)
par: Li, Xuchen, et autres
Publié: (2025)
CausalStep: A Benchmark for Explicit Stepwise Causal Reasoning in Videos
par: Li, Xuchen, et autres
Publié: (2025)
par: Li, Xuchen, et autres
Publié: (2025)
ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints
par: Wu, Meiqi, et autres
Publié: (2025)
par: Wu, Meiqi, et autres
Publié: (2025)
MATrack: Efficient Multiscale Adaptive Tracker for Real-Time Nighttime UAV Operations
par: Li, Xuzhao, et autres
Publié: (2025)
par: Li, Xuzhao, et autres
Publié: (2025)
EduVerse: A User-Defined Multi-Agent Simulation Space for Education Scenario
par: Ma, Yiping, et autres
Publié: (2025)
par: Ma, Yiping, et autres
Publié: (2025)
DARTer: Dynamic Adaptive Representation Tracker for Nighttime UAV Tracking
par: Li, Xuzhao, et autres
Publié: (2025)
par: Li, Xuzhao, et autres
Publié: (2025)
Beyond Accuracy: Evaluating Grounded Visual Evidence in Thinking with Images
par: Li, Xuchen, et autres
Publié: (2026)
par: Li, Xuchen, et autres
Publié: (2026)
FIOVA: A Multi-Annotator Benchmark for Human-Aligned Video Captioning
par: Hu, Shiyu, et autres
Publié: (2024)
par: Hu, Shiyu, et autres
Publié: (2024)
When LLMs Learn to be Students: The SOEI Framework for Modeling and Evaluating Virtual Student Agents in Educational Interaction
par: Ma, Yiping, et autres
Publié: (2024)
par: Ma, Yiping, et autres
Publié: (2024)
Latent Temporal Discrepancy as Motion Prior: A Loss-Weighting Strategy for Dynamic Fidelity in T2V
par: Wu, Meiqi, et autres
Publié: (2026)
par: Wu, Meiqi, et autres
Publié: (2026)
MagicFuse: Single Image Fusion for Visual and Semantic Reinforcement
par: Zhang, Hao, et autres
Publié: (2026)
par: Zhang, Hao, et autres
Publié: (2026)
In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation
par: Kang, Dahyun, et autres
Publié: (2024)
par: Kang, Dahyun, et autres
Publié: (2024)
PointT2I: LLM-based text-to-image generation via keypoints
par: Lee, Taekyung, et autres
Publié: (2025)
par: Lee, Taekyung, et autres
Publié: (2025)
3DrawAgent: Teaching LLM to Draw in 3D with Early Contrastive Experience
par: Xiao, Hongcan, et autres
Publié: (2026)
par: Xiao, Hongcan, et autres
Publié: (2026)
VisualPrompter: Semantic-Aware Prompt Optimization with Visual Feedback for Text-to-Image Synthesis
par: Wu, Shiyu, et autres
Publié: (2025)
par: Wu, Shiyu, et autres
Publié: (2025)
TemCoCo: Temporally Consistent Multi-modal Video Fusion with Visual-Semantic Collaboration
par: Gong, Meiqi, et autres
Publié: (2025)
par: Gong, Meiqi, et autres
Publié: (2025)
Assessment of Autism and ADHD: A Comparative Analysis of Drawing Velocity Profiles and the NEPSY Test
par: Fortea-Sevilla, S., et autres
Publié: (2024)
par: Fortea-Sevilla, S., et autres
Publié: (2024)
A Deep Learning Framework for Boundary-Aware Semantic Segmentation
par: An, Tai, et autres
Publié: (2025)
par: An, Tai, et autres
Publié: (2025)
SeCG: Semantic-Enhanced 3D Visual Grounding via Cross-modal Graph Attention
par: Xiao, Feng, et autres
Publié: (2024)
par: Xiao, Feng, et autres
Publié: (2024)
Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image Personalization
par: Lv, Henglei, et autres
Publié: (2024)
par: Lv, Henglei, et autres
Publié: (2024)
MedThink: Explaining Medical Visual Question Answering via Multimodal Decision-Making Rationale
par: Gai, Xiaotang, et autres
Publié: (2024)
par: Gai, Xiaotang, et autres
Publié: (2024)
Semantic Draw Engineering for Text-to-Image Creation
par: Li, Yang, et autres
Publié: (2023)
par: Li, Yang, et autres
Publié: (2023)
Semantic Visual Simultaneous Localization and Mapping: A Survey
par: Chen, Kaiqi, et autres
Publié: (2022)
par: Chen, Kaiqi, et autres
Publié: (2022)
Look Less, Reason More: Rollout-Guided Adaptive Pixel-Space Reasoning
par: Li, Xuchen, et autres
Publié: (2025)
par: Li, Xuchen, et autres
Publié: (2025)
Paintings and Drawings Aesthetics Assessment with Rich Attributes for Various Artistic Categories
par: Jin, Xin, et autres
Publié: (2024)
par: Jin, Xin, et autres
Publié: (2024)
Cross-Stage Attention Propagation for Efficient Semantic Segmentation
par: Kang, Beoungwoo
Publié: (2026)
par: Kang, Beoungwoo
Publié: (2026)
KeyframeFace: Language-Driven Facial Animation via Semantic Keyframes
par: Wu, Jingchao, et autres
Publié: (2025)
par: Wu, Jingchao, et autres
Publié: (2025)
MergeSAM: Unsupervised change detection of remote sensing images based on the Segment Anything Model
par: Hu, Meiqi, et autres
Publié: (2025)
par: Hu, Meiqi, et autres
Publié: (2025)
Information transmission: Inferring change area from change moment in time series remote sensing images
par: Li, Jialu, et autres
Publié: (2025)
par: Li, Jialu, et autres
Publié: (2025)
Towards Semantic Equivalence of Tokenization in Multimodal LLM
par: Wu, Shengqiong, et autres
Publié: (2024)
par: Wu, Shengqiong, et autres
Publié: (2024)
LocLLM: Exploiting Generalizable Human Keypoint Localization via Large Language Model
par: Wang, Dongkai, et autres
Publié: (2024)
par: Wang, Dongkai, et autres
Publié: (2024)
Subspace Prototype Guidance for Mitigating Class Imbalance in Point Cloud Semantic Segmentation
par: Han, Jiawei, et autres
Publié: (2024)
par: Han, Jiawei, et autres
Publié: (2024)
WIPES: Wavelet-based Visual Primitives
par: Zhang, Wenhao, et autres
Publié: (2025)
par: Zhang, Wenhao, et autres
Publié: (2025)
Does VLM Classification Benefit from LLM Description Semantics?
par: Ma, Pingchuan, et autres
Publié: (2024)
par: Ma, Pingchuan, et autres
Publié: (2024)
ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment
par: Hu, Xiwei, et autres
Publié: (2024)
par: Hu, Xiwei, et autres
Publié: (2024)
Documents similaires
-
DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM
par: Li, Xuchen, et autres
Publié: (2024) -
DTVLT: A Multi-modal Diverse Text Benchmark for Visual Language Tracking Based on LLM
par: Li, Xuchen, et autres
Publié: (2024) -
Visual Language Tracking with Multi-modal Interaction: A Robust Benchmark
par: Li, Xuchen, et autres
Publié: (2024) -
Finger in Camera Speaks Everything: Unconstrained Air-Writing for Real-World
par: Wu, Meiqi, et autres
Publié: (2024) -
How Texts Help? A Fine-grained Evaluation to Reveal the Role of Language in Vision-Language Tracking
par: Li, Xuchen, et autres
Publié: (2024)