:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Inui, Tai, Oh, Steven, Kuan, Magdeline
Natura:	Preprint
Pubblicazione:	2025
Soggetti:	Computer Vision and Pattern Recognition Artificial Intelligence
Accesso online:	https://arxiv.org/abs/2508.19289
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

DesignLab: Designing Slides Through Iterative Detection and Correction
di: Yun, Jooyeol, et al.
Pubblicazione: (2025)

SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design
di: Tang, Wenxin, et al.
Pubblicazione: (2025)

Enhancing Image Quality Assessment Ability of LMMs via Retrieval-Augmented Generation
di: Fu, Kang, et al.
Pubblicazione: (2026)

Seeing Beyond 8bits: Subjective and Objective Quality Assessment of HDR-UGC Videos
di: Saini, Shreshth, et al.
Pubblicazione: (2026)

Beyond Frequency: Seeing Subtle Cues Through the Lens of Spatial Decomposition for Fine-Grained Visual Classification
di: Xu, Qin, et al.
Pubblicazione: (2025)

See Further, Think Deeper: Advancing VLM's Reasoning Ability with Low-level Visual Cues and Reflection
di: Wu, Zhiheng, et al.
Pubblicazione: (2026)

Improving Quality Control of Whole Slide Images by Explicit Artifact Augmentation
di: Jurgas, Artur, et al.
Pubblicazione: (2024)

EReCu: Pseudo-label Evolution Fusion and Refinement with Multi-Cue Learning for Unsupervised Camouflage Detection
di: Jiang, Shuo, et al.
Pubblicazione: (2026)

From Local Cues to Global Percepts: Emergent Gestalt Organization in Self-Supervised Vision Models
di: Li, Tianqin, et al.
Pubblicazione: (2025)

Can LLMs See Without Pixels? Benchmarking Spatial Intelligence from Textual Descriptions
di: Guo, Zhongbin, et al.
Pubblicazione: (2026)

See, Act, Adapt: Active Perception for Unsupervised Cross-Domain Visual Adaptation via Personalized VLM-Guided Agent
di: Tang, Tianci, et al.
Pubblicazione: (2026)

Cross-IQA: Unsupervised Learning for Image Quality Assessment
di: Zhang, Zhen
Pubblicazione: (2024)

Seeing through Unclear Glass: Occlusion Removal with One Shot
di: Li, Qiang, et al.
Pubblicazione: (2025)

Genetic Learning for Designing Sim-to-Real Data Augmentations
di: Vanherle, Bram, et al.
Pubblicazione: (2024)

Vision Augmentation Prediction Autoencoder with Attention Design (VAPAAD)
di: Yin, Yiqiao
Pubblicazione: (2024)

Towards Visual Text Design Transfer Across Languages
di: Choi, Yejin, et al.
Pubblicazione: (2024)

Seeing Like Radiologists: Context- and Gaze-Guided Vision-Language Pretraining for Chest X-rays
di: Liu, Kang, et al.
Pubblicazione: (2026)

Melon Fruit Detection and Quality Assessment Using Generative AI-Based Image Data Augmentation
di: Yoon, Seungri, et al.
Pubblicazione: (2024)

Seeing Beyond Frames: Zero-Shot Pedestrian Intention Prediction with Raw Temporal Video and Multimodal Cues
di: Zambare, Pallavi, et al.
Pubblicazione: (2025)

On the Reliability of Cue Conflict and Beyond
di: Kim, Pum Jun, et al.
Pubblicazione: (2026)

GThinker: Towards General Multimodal Reasoning via Cue-Guided Rethinking
di: Zhan, Yufei, et al.
Pubblicazione: (2025)

See Without Decoding: Motion-Vector-Based Tracking in Compressed Video
di: Duché, Axel, et al.
Pubblicazione: (2026)

AI-Generated Lecture Slides for Improving Slide Element Detection and Retrieval
di: Maniyar, Suyash, et al.
Pubblicazione: (2025)

OCR-Quality: A Human-Annotated Dataset for OCR Quality Assessment
di: Zhang, Yulong
Pubblicazione: (2025)

Action Quality Assessment via Hierarchical Pose-guided Multi-stage Contrastive Regression
di: Qi, Mengshi, et al.
Pubblicazione: (2025)

MLLMs Know When Before Speaking: Revealing and Recovering Temporal Grounding via Attention Cues
di: Du, Dazhao, et al.
Pubblicazione: (2026)

Motion-Boundary-Driven Unsupervised Surgical Instrument Segmentation in Low-Quality Optical Flow
di: Liu, Yang, et al.
Pubblicazione: (2024)

Scaling-up Perceptual Video Quality Assessment
di: Jia, Ziheng, et al.
Pubblicazione: (2025)

KAN See In the Dark
di: Ning, Aoxiang, et al.
Pubblicazione: (2024)

Ice Hockey Puck Localization Using Contextual Cues
di: Salass, Liam, et al.
Pubblicazione: (2025)

mRAG: Elucidating the Design Space of Multi-modal Retrieval-Augmented Generation
di: Hu, Chan-Wei, et al.
Pubblicazione: (2025)

SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding
di: Chen, Ying, et al.
Pubblicazione: (2024)

Script-to-Slide Grounding: Grounding Script Sentences to Slide Objects for Automatic Instructional Video Generation
di: Suzuki, Rena, et al.
Pubblicazione: (2026)

Boosting Audio Visual Question Answering via Key Semantic-Aware Cues
di: Li, Guangyao, et al.
Pubblicazione: (2024)

Eye Sclera for Fair Face Image Quality Assessment
di: Kabbani, Wassim, et al.
Pubblicazione: (2025)

AI-generated Image Quality Assessment in Visual Communication
di: Tian, Yu, et al.
Pubblicazione: (2024)

Investigation of Frame Differences as Motion Cues for Video Object Segmentation
di: Kawamura, Sota, et al.
Pubblicazione: (2025)

DesignCLIP: Multimodal Learning with CLIP for Design Patent Understanding
di: Wang, Zhu, et al.
Pubblicazione: (2025)

NTIRE 2025 challenge on Text to Image Generation Model Quality Assessment
di: Han, Shuhao, et al.
Pubblicazione: (2025)

Synthetic FMCW Radar Range Azimuth Maps Augmentation with Generative Diffusion Model
di: Wang, Zhaoze, et al.
Pubblicazione: (2026)