:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Tao, Chaofan, Kwon, Gukyeong, Gunjal, Varad, Yang, Hao, Cai, Zhaowei, Dukler, Yonatan, Swaminathan, Ashwin, Manmatha, R., Taylor, Colin Jon, Soatto, Stefano
Format:	Preprint
Publié:	2024
Sujets:	Computer Vision and Pattern Recognition
Accès en ligne:	https://arxiv.org/abs/2408.09511
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Mixed-Query Transformer: A Unified Image Segmentation Architecture
par: Wang, Pei, et autres
Publié: (2024)

THRONE: An Object-based Hallucination Benchmark for the Free-form Generations of Large Vision-Language Models
par: Kaul, Prannay, et autres
Publié: (2024)

Training Data Protection with Compositional Diffusion Models
par: Golatkar, Aditya, et autres
Publié: (2023)

On the Scalability of Diffusion-based Text-to-Image Generation
par: Li, Hao, et autres
Publié: (2024)

B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory
par: Zancato, Luca, et autres
Publié: (2024)

Efficient Scaling of Diffusion Transformers for Text-to-Image Generation
par: Li, Hao, et autres
Publié: (2024)

Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model
par: Li, Xiaolong, et autres
Publié: (2024)

A Quantitative Evaluation of Score Distillation Sampling Based Text-to-3D
par: Fei, Xiaohan, et autres
Publié: (2024)

CPR: Retrieval Augmented Generation for Copyright Protection
par: Golatkar, Aditya, et autres
Publié: (2024)

The submodularity of the covolume function in global function fields
par: Bang, Gukyeong
Publié: (2024)

Fast Sparse View Guided NeRF Update for Object Reconfigurations
par: Lu, Ziqi, et autres
Publié: (2024)

Conjuring Semantic Similarity
par: Liu, Tian Yu, et autres
Publié: (2024)

Multi-Modal Hallucination Control by Visual Information Grounding
par: Favero, Alessandro, et autres
Publié: (2024)

FarSkip-Collective: Unhobbling Blocking Communication in Mixture of Experts Models
par: Dukler, Yonatan, et autres
Publié: (2025)

Diffusion Soup: Model Merging for Text-to-Image Diffusion Models
par: Biggs, Benjamin, et autres
Publié: (2024)

Tangent Transformers for Composition, Privacy and Removal
par: Liu, Tian Yu, et autres
Publié: (2023)

MM-ReCoder: Advancing Chart-to-Code Generation with Reinforcement Learning and Self-Correction
par: Tang, Zitian, et autres
Publié: (2026)

Singular systems of linear forms over global function fields
par: Bang, Gukyeong, et autres
Publié: (2024)

AI Agents as Universal Task Solvers
par: Achille, Alessandro, et autres
Publié: (2025)

Cycles of Thought: Measuring LLM Confidence through Stable Explanations
par: Becker, Evan, et autres
Publié: (2024)

Robust Planning for Autonomous Driving via Mixed Adversarial Diffusion Predictions
par: Zhao, Albert, et autres
Publié: (2025)

Changes in colour and mechanical properties of wood polypropylene composites on natural weathering
par: Jayashri Gunjal
Publié: (2020)

DocKD: Knowledge Distillation from LLMs for Open-World Document Understanding Models
par: Kim, Sungnyun, et autres
Publié: (2024)

Compositional Structures in Neural Embedding and Interaction Decompositions
par: Trager, Matthew, et autres
Publié: (2024)

FG-CLTP: Fine-Grained Contrastive Language Tactile Pretraining for Robotic Manipulation
par: Ma, Wenxuan, et autres
Publié: (2026)

Leveraging Semantic Segmentation Masks with Embeddings for Fine-Grained Form Classification
par: Archibald, Taylor, et autres
Publié: (2024)

Musketeer: Joint Training for Multi-task Vision Language Model with Task Explanation Prompts
par: Zhang, Zhaoyang, et autres
Publié: (2023)

Critical Learning Periods Emerge Even in Deep Linear Networks
par: Kleinman, Michael, et autres
Publié: (2023)

Learning to Focus: Focal Attention for Selective and Scalable Transformers
par: Ram, Dhananjay, et autres
Publié: (2025)

Unlocking Vision-Language Models for Video Anomaly Detection via Fine-Grained Prompting
par: Zou, Shu, et autres
Publié: (2025)

Linear Spaces of Meanings: Compositional Structures in Vision-Language Models
par: Trager, Matthew, et autres
Publié: (2023)

Token Cleaning: Fine-Grained Data Selection for LLM Supervised Fine-Tuning
par: Pang, Jinlong, et autres
Publié: (2025)

Analysis of exciton-polariton condensation under different pumping schemes for 1D and 2D microcavities including the effect of strong correlation between polaritons
par: Pande, Varad R.
Publié: (2025)

Molecular Facts: Desiderata for Decontextualization in LLM Fact Verification
par: Gunjal, Anisha, et autres
Publié: (2024)

Symmetric Monoidal Bicategories and Biextensions
par: Aldrovandi, Ettore, et autres
Publié: (2024)

FG-RAG: Enhancing Query-Focused Summarization with Context-Aware Fine-Grained Graph RAG
par: Hong, Yubin, et autres
Publié: (2025)

FineViT: Progressively Unlocking Fine-Grained Perception with Dense Recaptions
par: Zhao, Peisen, et autres
Publié: (2026)

PICASO: Permutation-Invariant Context Composition with State Space Models
par: Liu, Tian Yu, et autres
Publié: (2025)

On the Viability of Monocular Depth Pre-training for Semantic Segmentation
par: Lao, Dong, et autres
Publié: (2022)

VideoComp: Advancing Fine-Grained Compositional and Temporal Alignment in Video-Text Models
par: Kim, Dahun, et autres
Publié: (2025)