Salvato in:
| Autori principali: | Inui, Tai, Oh, Steven, Kuan, Magdeline |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2025
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2508.19289 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
DesignLab: Designing Slides Through Iterative Detection and Correction
di: Yun, Jooyeol, et al.
Pubblicazione: (2025)
di: Yun, Jooyeol, et al.
Pubblicazione: (2025)
SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design
di: Tang, Wenxin, et al.
Pubblicazione: (2025)
di: Tang, Wenxin, et al.
Pubblicazione: (2025)
Enhancing Image Quality Assessment Ability of LMMs via Retrieval-Augmented Generation
di: Fu, Kang, et al.
Pubblicazione: (2026)
di: Fu, Kang, et al.
Pubblicazione: (2026)
Seeing Beyond 8bits: Subjective and Objective Quality Assessment of HDR-UGC Videos
di: Saini, Shreshth, et al.
Pubblicazione: (2026)
di: Saini, Shreshth, et al.
Pubblicazione: (2026)
Beyond Frequency: Seeing Subtle Cues Through the Lens of Spatial Decomposition for Fine-Grained Visual Classification
di: Xu, Qin, et al.
Pubblicazione: (2025)
di: Xu, Qin, et al.
Pubblicazione: (2025)
See Further, Think Deeper: Advancing VLM's Reasoning Ability with Low-level Visual Cues and Reflection
di: Wu, Zhiheng, et al.
Pubblicazione: (2026)
di: Wu, Zhiheng, et al.
Pubblicazione: (2026)
Improving Quality Control of Whole Slide Images by Explicit Artifact Augmentation
di: Jurgas, Artur, et al.
Pubblicazione: (2024)
di: Jurgas, Artur, et al.
Pubblicazione: (2024)
EReCu: Pseudo-label Evolution Fusion and Refinement with Multi-Cue Learning for Unsupervised Camouflage Detection
di: Jiang, Shuo, et al.
Pubblicazione: (2026)
di: Jiang, Shuo, et al.
Pubblicazione: (2026)
From Local Cues to Global Percepts: Emergent Gestalt Organization in Self-Supervised Vision Models
di: Li, Tianqin, et al.
Pubblicazione: (2025)
di: Li, Tianqin, et al.
Pubblicazione: (2025)
Can LLMs See Without Pixels? Benchmarking Spatial Intelligence from Textual Descriptions
di: Guo, Zhongbin, et al.
Pubblicazione: (2026)
di: Guo, Zhongbin, et al.
Pubblicazione: (2026)
See, Act, Adapt: Active Perception for Unsupervised Cross-Domain Visual Adaptation via Personalized VLM-Guided Agent
di: Tang, Tianci, et al.
Pubblicazione: (2026)
di: Tang, Tianci, et al.
Pubblicazione: (2026)
Cross-IQA: Unsupervised Learning for Image Quality Assessment
di: Zhang, Zhen
Pubblicazione: (2024)
di: Zhang, Zhen
Pubblicazione: (2024)
Seeing through Unclear Glass: Occlusion Removal with One Shot
di: Li, Qiang, et al.
Pubblicazione: (2025)
di: Li, Qiang, et al.
Pubblicazione: (2025)
Genetic Learning for Designing Sim-to-Real Data Augmentations
di: Vanherle, Bram, et al.
Pubblicazione: (2024)
di: Vanherle, Bram, et al.
Pubblicazione: (2024)
Vision Augmentation Prediction Autoencoder with Attention Design (VAPAAD)
di: Yin, Yiqiao
Pubblicazione: (2024)
di: Yin, Yiqiao
Pubblicazione: (2024)
Towards Visual Text Design Transfer Across Languages
di: Choi, Yejin, et al.
Pubblicazione: (2024)
di: Choi, Yejin, et al.
Pubblicazione: (2024)
Seeing Like Radiologists: Context- and Gaze-Guided Vision-Language Pretraining for Chest X-rays
di: Liu, Kang, et al.
Pubblicazione: (2026)
di: Liu, Kang, et al.
Pubblicazione: (2026)
Melon Fruit Detection and Quality Assessment Using Generative AI-Based Image Data Augmentation
di: Yoon, Seungri, et al.
Pubblicazione: (2024)
di: Yoon, Seungri, et al.
Pubblicazione: (2024)
Seeing Beyond Frames: Zero-Shot Pedestrian Intention Prediction with Raw Temporal Video and Multimodal Cues
di: Zambare, Pallavi, et al.
Pubblicazione: (2025)
di: Zambare, Pallavi, et al.
Pubblicazione: (2025)
On the Reliability of Cue Conflict and Beyond
di: Kim, Pum Jun, et al.
Pubblicazione: (2026)
di: Kim, Pum Jun, et al.
Pubblicazione: (2026)
GThinker: Towards General Multimodal Reasoning via Cue-Guided Rethinking
di: Zhan, Yufei, et al.
Pubblicazione: (2025)
di: Zhan, Yufei, et al.
Pubblicazione: (2025)
See Without Decoding: Motion-Vector-Based Tracking in Compressed Video
di: Duché, Axel, et al.
Pubblicazione: (2026)
di: Duché, Axel, et al.
Pubblicazione: (2026)
AI-Generated Lecture Slides for Improving Slide Element Detection and Retrieval
di: Maniyar, Suyash, et al.
Pubblicazione: (2025)
di: Maniyar, Suyash, et al.
Pubblicazione: (2025)
OCR-Quality: A Human-Annotated Dataset for OCR Quality Assessment
di: Zhang, Yulong
Pubblicazione: (2025)
di: Zhang, Yulong
Pubblicazione: (2025)
Action Quality Assessment via Hierarchical Pose-guided Multi-stage Contrastive Regression
di: Qi, Mengshi, et al.
Pubblicazione: (2025)
di: Qi, Mengshi, et al.
Pubblicazione: (2025)
MLLMs Know When Before Speaking: Revealing and Recovering Temporal Grounding via Attention Cues
di: Du, Dazhao, et al.
Pubblicazione: (2026)
di: Du, Dazhao, et al.
Pubblicazione: (2026)
Motion-Boundary-Driven Unsupervised Surgical Instrument Segmentation in Low-Quality Optical Flow
di: Liu, Yang, et al.
Pubblicazione: (2024)
di: Liu, Yang, et al.
Pubblicazione: (2024)
Scaling-up Perceptual Video Quality Assessment
di: Jia, Ziheng, et al.
Pubblicazione: (2025)
di: Jia, Ziheng, et al.
Pubblicazione: (2025)
KAN See In the Dark
di: Ning, Aoxiang, et al.
Pubblicazione: (2024)
di: Ning, Aoxiang, et al.
Pubblicazione: (2024)
Ice Hockey Puck Localization Using Contextual Cues
di: Salass, Liam, et al.
Pubblicazione: (2025)
di: Salass, Liam, et al.
Pubblicazione: (2025)
mRAG: Elucidating the Design Space of Multi-modal Retrieval-Augmented Generation
di: Hu, Chan-Wei, et al.
Pubblicazione: (2025)
di: Hu, Chan-Wei, et al.
Pubblicazione: (2025)
SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding
di: Chen, Ying, et al.
Pubblicazione: (2024)
di: Chen, Ying, et al.
Pubblicazione: (2024)
Script-to-Slide Grounding: Grounding Script Sentences to Slide Objects for Automatic Instructional Video Generation
di: Suzuki, Rena, et al.
Pubblicazione: (2026)
di: Suzuki, Rena, et al.
Pubblicazione: (2026)
Boosting Audio Visual Question Answering via Key Semantic-Aware Cues
di: Li, Guangyao, et al.
Pubblicazione: (2024)
di: Li, Guangyao, et al.
Pubblicazione: (2024)
Eye Sclera for Fair Face Image Quality Assessment
di: Kabbani, Wassim, et al.
Pubblicazione: (2025)
di: Kabbani, Wassim, et al.
Pubblicazione: (2025)
AI-generated Image Quality Assessment in Visual Communication
di: Tian, Yu, et al.
Pubblicazione: (2024)
di: Tian, Yu, et al.
Pubblicazione: (2024)
Investigation of Frame Differences as Motion Cues for Video Object Segmentation
di: Kawamura, Sota, et al.
Pubblicazione: (2025)
di: Kawamura, Sota, et al.
Pubblicazione: (2025)
DesignCLIP: Multimodal Learning with CLIP for Design Patent Understanding
di: Wang, Zhu, et al.
Pubblicazione: (2025)
di: Wang, Zhu, et al.
Pubblicazione: (2025)
NTIRE 2025 challenge on Text to Image Generation Model Quality Assessment
di: Han, Shuhao, et al.
Pubblicazione: (2025)
di: Han, Shuhao, et al.
Pubblicazione: (2025)
Synthetic FMCW Radar Range Azimuth Maps Augmentation with Generative Diffusion Model
di: Wang, Zhaoze, et al.
Pubblicazione: (2026)
di: Wang, Zhaoze, et al.
Pubblicazione: (2026)
Documenti analoghi
-
DesignLab: Designing Slides Through Iterative Detection and Correction
di: Yun, Jooyeol, et al.
Pubblicazione: (2025) -
SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design
di: Tang, Wenxin, et al.
Pubblicazione: (2025) -
Enhancing Image Quality Assessment Ability of LMMs via Retrieval-Augmented Generation
di: Fu, Kang, et al.
Pubblicazione: (2026) -
Seeing Beyond 8bits: Subjective and Objective Quality Assessment of HDR-UGC Videos
di: Saini, Shreshth, et al.
Pubblicazione: (2026) -
Beyond Frequency: Seeing Subtle Cues Through the Lens of Spatial Decomposition for Fine-Grained Visual Classification
di: Xu, Qin, et al.
Pubblicazione: (2025)