Gespeichert in:
| Hauptverfasser: | Gao, Qingying, Li, Yijiang, Lyu, Haiyun, Sun, Haoran, Luo, Dezhi, Deng, Hokin |
|---|---|
| Format: | Preprint |
| Veröffentlicht: |
2024
|
| Schlagworte: | |
| Online-Zugang: | https://arxiv.org/abs/2410.00324 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Ähnliche Einträge
Probing Mechanical Reasoning in Large Vision Language Models
von: Sun, Haoran, et al.
Veröffentlicht: (2024)
von: Sun, Haoran, et al.
Veröffentlicht: (2024)
Vision Language Models Know Law of Conservation without Understanding More-or-Less
von: Luo, Dezhi, et al.
Veröffentlicht: (2024)
von: Luo, Dezhi, et al.
Veröffentlicht: (2024)
Core Knowledge Deficits in Multi-Modal Language Models
von: Li, Yijiang, et al.
Veröffentlicht: (2024)
von: Li, Yijiang, et al.
Veröffentlicht: (2024)
The Philosophical Foundations of Growing AI Like A Child
von: Luo, Dezhi, et al.
Veröffentlicht: (2025)
von: Luo, Dezhi, et al.
Veröffentlicht: (2025)
Egocentric Bias in Vision-Language Models
von: Wang, Maijunxian, et al.
Veröffentlicht: (2026)
von: Wang, Maijunxian, et al.
Veröffentlicht: (2026)
Probing Perceptual Constancy in Large Vision-Language Models
von: Sun, Haoran, et al.
Veröffentlicht: (2025)
von: Sun, Haoran, et al.
Veröffentlicht: (2025)
What You See is What You Ask: Evaluating Audio Descriptions
von: Kala, Divy, et al.
Veröffentlicht: (2025)
von: Kala, Divy, et al.
Veröffentlicht: (2025)
What You See is What You Classify: Black Box Attributions
von: Stalder, Steven, et al.
Veröffentlicht: (2022)
von: Stalder, Steven, et al.
Veröffentlicht: (2022)
"I See What You Did There": Can Large Vision-Language Models Understand Multimodal Puns?
von: Xu, Naen, et al.
Veröffentlicht: (2026)
von: Xu, Naen, et al.
Veröffentlicht: (2026)
What You Think is What You See: Driving Exploration in VLM Agents via Visual-Linguistic Curiosity
von: Li, Haoxi, et al.
Veröffentlicht: (2026)
von: Li, Haoxi, et al.
Veröffentlicht: (2026)
What You See Is Not Always What You Get: Evaluating GPT's Comprehension of Source Code
von: Wen, Jiawen, et al.
Veröffentlicht: (2024)
von: Wen, Jiawen, et al.
Veröffentlicht: (2024)
Vision Language Models Cannot Reason About Physical Transformation
von: Luo, Dezhi, et al.
Veröffentlicht: (2026)
von: Luo, Dezhi, et al.
Veröffentlicht: (2026)
Rethinking the Simulation vs. Rendering Dichotomy: No Free Lunch in Spatial World Modelling
von: Luo, Dezhi, et al.
Veröffentlicht: (2025)
von: Luo, Dezhi, et al.
Veröffentlicht: (2025)
Tell What You Hear From What You See -- Video to Audio Generation Through Text
von: Liu, Xiulong, et al.
Veröffentlicht: (2024)
von: Liu, Xiulong, et al.
Veröffentlicht: (2024)
See What You Are Told: Visual Attention Sink in Large Multimodal Models
von: Kang, Seil, et al.
Veröffentlicht: (2025)
von: Kang, Seil, et al.
Veröffentlicht: (2025)
Spatially Selective Imaging in Color: What You See is What You Want
von: John You En Chan, et al.
Veröffentlicht: (2024)
von: John You En Chan, et al.
Veröffentlicht: (2024)
What You See is What You GAN: Rendering Every Pixel for High-Fidelity Geometry in 3D GANs
von: Trevithick, Alex, et al.
Veröffentlicht: (2024)
von: Trevithick, Alex, et al.
Veröffentlicht: (2024)
Be the Change You Want to See: Revisiting Remote Sensing Change Detection Practices
von: Rolih, Blaž, et al.
Veröffentlicht: (2025)
von: Rolih, Blaž, et al.
Veröffentlicht: (2025)
What You Feel Is Not What They See: On Predicting Self-Reported Emotion from Third-Party Observer Labels
von: El-Tawil, Yara, et al.
Veröffentlicht: (2026)
von: El-Tawil, Yara, et al.
Veröffentlicht: (2026)
Revisit What You See: Revealing Visual Semantics in Vision Tokens to Guide LVLM Decoding
von: Cho, Beomsik, et al.
Veröffentlicht: (2025)
von: Cho, Beomsik, et al.
Veröffentlicht: (2025)
What if Othello-Playing Language Models Could See?
von: Chen, Xinyi, et al.
Veröffentlicht: (2025)
von: Chen, Xinyi, et al.
Veröffentlicht: (2025)
The More You Automate, the Less You See: Hidden Pitfalls of AI Scientist Systems
von: Luo, Ziming, et al.
Veröffentlicht: (2025)
von: Luo, Ziming, et al.
Veröffentlicht: (2025)
PairBench: Are Vision-Language Models Reliable at Comparing What They See?
von: Feizi, Aarash, et al.
Veröffentlicht: (2025)
von: Feizi, Aarash, et al.
Veröffentlicht: (2025)
Seeing with You: Perception-Reasoning Coevolution for Multimodal Reasoning
von: Miao, Ziqi, et al.
Veröffentlicht: (2026)
von: Miao, Ziqi, et al.
Veröffentlicht: (2026)
Jigsaw-Puzzles: From Seeing to Understanding to Reasoning in Vision-Language Models
von: Lyu, Zesen, et al.
Veröffentlicht: (2025)
von: Lyu, Zesen, et al.
Veröffentlicht: (2025)
OntView: What you See is What you Meant
von: Bobed, Carlos, et al.
Veröffentlicht: (2025)
von: Bobed, Carlos, et al.
Veröffentlicht: (2025)
Just Say What You Want: Only-prompting Self-rewarding Online Preference Optimization
von: Xu, Ruijie, et al.
Veröffentlicht: (2024)
von: Xu, Ruijie, et al.
Veröffentlicht: (2024)
From Sora What We Can See: A Survey of Text-to-Video Generation
von: Sun, Rui, et al.
Veröffentlicht: (2024)
von: Sun, Rui, et al.
Veröffentlicht: (2024)
Vision-Language Models Mistake Head Orientation for Gaze Direction: Nonverbal Conversation Cues
von: Zhang, Zory, et al.
Veröffentlicht: (2025)
von: Zhang, Zory, et al.
Veröffentlicht: (2025)
Video Models Start to Solve Chess, Maze, Sudoku, Mental Rotation, and Raven' Matrices
von: Deng, Hokin
Veröffentlicht: (2025)
von: Deng, Hokin
Veröffentlicht: (2025)
Sample from What You See: Visuomotor Policy Learning via Diffusion Bridge with Observation-Embedded Stochastic Differential Equation
von: Liu, Zhaoyang, et al.
Veröffentlicht: (2025)
von: Liu, Zhaoyang, et al.
Veröffentlicht: (2025)
Validity Is What You Need
von: Benthall, Sebastian, et al.
Veröffentlicht: (2025)
von: Benthall, Sebastian, et al.
Veröffentlicht: (2025)
See What I Mean: Aligning Vision and Language Representations for Video Fine-grained Object Understanding
von: Sun, Boyuan, et al.
Veröffentlicht: (2026)
von: Sun, Boyuan, et al.
Veröffentlicht: (2026)
Decom--CAM: Tell Me What You See, In Details! Feature-Level Interpretation via Decomposition Class Activation Map
von: Yang, Yuguang, et al.
Veröffentlicht: (2023)
von: Yang, Yuguang, et al.
Veröffentlicht: (2023)
Count What You Want: Exemplar Identification and Few-shot Counting of Human Actions in the Wild
von: Huang, Yifeng, et al.
Veröffentlicht: (2023)
von: Huang, Yifeng, et al.
Veröffentlicht: (2023)
Optimisation Is Not What You Need
von: Ibias, Alfredo
Veröffentlicht: (2025)
von: Ibias, Alfredo
Veröffentlicht: (2025)
See What You Need: Query-Aware Visual Intelligence through Reasoning-Perception Loops
von: Dong, Zixuan, et al.
Veröffentlicht: (2025)
von: Dong, Zixuan, et al.
Veröffentlicht: (2025)
LensWalk: Agentic Video Understanding by Planning How You See in Videos
von: Li, Keliang, et al.
Veröffentlicht: (2026)
von: Li, Keliang, et al.
Veröffentlicht: (2026)
See Where You Read with Eye Gaze Tracking and Large Language Model
von: Yang, Sikai, et al.
Veröffentlicht: (2024)
von: Yang, Sikai, et al.
Veröffentlicht: (2024)
Attention Is Not What You Need
von: Chong, Zhang
Veröffentlicht: (2025)
von: Chong, Zhang
Veröffentlicht: (2025)
Ähnliche Einträge
-
Probing Mechanical Reasoning in Large Vision Language Models
von: Sun, Haoran, et al.
Veröffentlicht: (2024) -
Vision Language Models Know Law of Conservation without Understanding More-or-Less
von: Luo, Dezhi, et al.
Veröffentlicht: (2024) -
Core Knowledge Deficits in Multi-Modal Language Models
von: Li, Yijiang, et al.
Veröffentlicht: (2024) -
The Philosophical Foundations of Growing AI Like A Child
von: Luo, Dezhi, et al.
Veröffentlicht: (2025) -
Egocentric Bias in Vision-Language Models
von: Wang, Maijunxian, et al.
Veröffentlicht: (2026)