:: Library Catalog

Buchumschlag

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Gao, Qingying, Li, Yijiang, Lyu, Haiyun, Sun, Haoran, Luo, Dezhi, Deng, Hokin
Format:	Preprint
Veröffentlicht:	2024
Schlagworte:	Artificial Intelligence
Online-Zugang:	https://arxiv.org/abs/2410.00324
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Ähnliche Einträge

Probing Mechanical Reasoning in Large Vision Language Models
von: Sun, Haoran, et al.
Veröffentlicht: (2024)

Vision Language Models Know Law of Conservation without Understanding More-or-Less
von: Luo, Dezhi, et al.
Veröffentlicht: (2024)

Core Knowledge Deficits in Multi-Modal Language Models
von: Li, Yijiang, et al.
Veröffentlicht: (2024)

The Philosophical Foundations of Growing AI Like A Child
von: Luo, Dezhi, et al.
Veröffentlicht: (2025)

Egocentric Bias in Vision-Language Models
von: Wang, Maijunxian, et al.
Veröffentlicht: (2026)

Probing Perceptual Constancy in Large Vision-Language Models
von: Sun, Haoran, et al.
Veröffentlicht: (2025)

What You See is What You Ask: Evaluating Audio Descriptions
von: Kala, Divy, et al.
Veröffentlicht: (2025)

What You See is What You Classify: Black Box Attributions
von: Stalder, Steven, et al.
Veröffentlicht: (2022)

"I See What You Did There": Can Large Vision-Language Models Understand Multimodal Puns?
von: Xu, Naen, et al.
Veröffentlicht: (2026)

What You Think is What You See: Driving Exploration in VLM Agents via Visual-Linguistic Curiosity
von: Li, Haoxi, et al.
Veröffentlicht: (2026)

What You See Is Not Always What You Get: Evaluating GPT's Comprehension of Source Code
von: Wen, Jiawen, et al.
Veröffentlicht: (2024)

Vision Language Models Cannot Reason About Physical Transformation
von: Luo, Dezhi, et al.
Veröffentlicht: (2026)

Rethinking the Simulation vs. Rendering Dichotomy: No Free Lunch in Spatial World Modelling
von: Luo, Dezhi, et al.
Veröffentlicht: (2025)

Tell What You Hear From What You See -- Video to Audio Generation Through Text
von: Liu, Xiulong, et al.
Veröffentlicht: (2024)

See What You Are Told: Visual Attention Sink in Large Multimodal Models
von: Kang, Seil, et al.
Veröffentlicht: (2025)

Spatially Selective Imaging in Color: What You See is What You Want
von: John You En Chan, et al.
Veröffentlicht: (2024)

What You See is What You GAN: Rendering Every Pixel for High-Fidelity Geometry in 3D GANs
von: Trevithick, Alex, et al.
Veröffentlicht: (2024)

Be the Change You Want to See: Revisiting Remote Sensing Change Detection Practices
von: Rolih, Blaž, et al.
Veröffentlicht: (2025)

What You Feel Is Not What They See: On Predicting Self-Reported Emotion from Third-Party Observer Labels
von: El-Tawil, Yara, et al.
Veröffentlicht: (2026)

Revisit What You See: Revealing Visual Semantics in Vision Tokens to Guide LVLM Decoding
von: Cho, Beomsik, et al.
Veröffentlicht: (2025)

What if Othello-Playing Language Models Could See?
von: Chen, Xinyi, et al.
Veröffentlicht: (2025)

The More You Automate, the Less You See: Hidden Pitfalls of AI Scientist Systems
von: Luo, Ziming, et al.
Veröffentlicht: (2025)

PairBench: Are Vision-Language Models Reliable at Comparing What They See?
von: Feizi, Aarash, et al.
Veröffentlicht: (2025)

Seeing with You: Perception-Reasoning Coevolution for Multimodal Reasoning
von: Miao, Ziqi, et al.
Veröffentlicht: (2026)

Jigsaw-Puzzles: From Seeing to Understanding to Reasoning in Vision-Language Models
von: Lyu, Zesen, et al.
Veröffentlicht: (2025)

OntView: What you See is What you Meant
von: Bobed, Carlos, et al.
Veröffentlicht: (2025)

Just Say What You Want: Only-prompting Self-rewarding Online Preference Optimization
von: Xu, Ruijie, et al.
Veröffentlicht: (2024)

From Sora What We Can See: A Survey of Text-to-Video Generation
von: Sun, Rui, et al.
Veröffentlicht: (2024)

Vision-Language Models Mistake Head Orientation for Gaze Direction: Nonverbal Conversation Cues
von: Zhang, Zory, et al.
Veröffentlicht: (2025)

Video Models Start to Solve Chess, Maze, Sudoku, Mental Rotation, and Raven' Matrices
von: Deng, Hokin
Veröffentlicht: (2025)

Sample from What You See: Visuomotor Policy Learning via Diffusion Bridge with Observation-Embedded Stochastic Differential Equation
von: Liu, Zhaoyang, et al.
Veröffentlicht: (2025)

Validity Is What You Need
von: Benthall, Sebastian, et al.
Veröffentlicht: (2025)

See What I Mean: Aligning Vision and Language Representations for Video Fine-grained Object Understanding
von: Sun, Boyuan, et al.
Veröffentlicht: (2026)

Decom--CAM: Tell Me What You See, In Details! Feature-Level Interpretation via Decomposition Class Activation Map
von: Yang, Yuguang, et al.
Veröffentlicht: (2023)

Count What You Want: Exemplar Identification and Few-shot Counting of Human Actions in the Wild
von: Huang, Yifeng, et al.
Veröffentlicht: (2023)

Optimisation Is Not What You Need
von: Ibias, Alfredo
Veröffentlicht: (2025)

See What You Need: Query-Aware Visual Intelligence through Reasoning-Perception Loops
von: Dong, Zixuan, et al.
Veröffentlicht: (2025)

LensWalk: Agentic Video Understanding by Planning How You See in Videos
von: Li, Keliang, et al.
Veröffentlicht: (2026)

See Where You Read with Eye Gaze Tracking and Large Language Model
von: Yang, Sikai, et al.
Veröffentlicht: (2024)

Attention Is Not What You Need
von: Chong, Zhang
Veröffentlicht: (2025)