:: Library Catalog

Cover Image

Saved in:

Bibliographic Details
Main Authors:	Santos, Rodrigo, Branco, António, Silva, João, Rodrigues, João
Format:	Preprint
Published:	2025
Subjects:	Computation and Language Computer Vision and Pattern Recognition
Online Access:	https://arxiv.org/abs/2502.10064
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Leveraging LLMs for On-the-Fly Instruction Guided Image Editing
by: Santos, Rodrigo, et al.
Published: (2024)

Advancing Generative AI for Portuguese with Open Decoder Gervásio PT*
by: Santos, Rodrigo, et al.
Published: (2024)

Open Sentence Embeddings for Portuguese with the Serafim PT* encoders family
by: Gomes, Luís, et al.
Published: (2024)

FoR-SALE: Frame of Reference-guided Spatial Adjustment in LLM-based Diffusion Editing
by: Premsri, Tanawan, et al.
Published: (2025)

Centered Masking for Language-Image Pre-Training
by: Liang, Mingliang, et al.
Published: (2024)

Vision-guided and Mask-enhanced Adaptive Denoising for Prompt-based Image Editing
by: Wang, Kejie, et al.
Published: (2024)

Reversible Inversion for Training-Free Exemplar-guided Image Editing
by: Li, Yuke, et al.
Published: (2025)

Open-Source Image Editing Models Are Zero-Shot Vision Learners
by: Liu, Wei, et al.
Published: (2026)

Edit as You See: Image-guided Video Editing via Masked Motion Modeling
by: Huang, Zhi-Lin, et al.
Published: (2025)

Show and Guide: Instructional-Plan Grounded Vision and Language Model
by: Glória-Silva, Diogo, et al.
Published: (2024)

Concept Lancet: Image Editing with Compositional Representation Transplant
by: Luo, Jinqi, et al.
Published: (2025)

Bayesian Optimization for Controlled Image Editing via LLMs
by: Cai, Chengkun, et al.
Published: (2025)

CAMILA: Context-Aware Masking for Image Editing with Language Alignment
by: Kim, Hyunseung, et al.
Published: (2025)

ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding
by: Fu, Xingyu, et al.
Published: (2025)

Learning an Image Editing Model without Image Editing Pairs
by: Kumari, Nupur, et al.
Published: (2025)

Lifelong Knowledge Editing for Vision Language Models with Low-Rank Mixture-of-Experts
by: Chen, Qizhou, et al.
Published: (2024)

MULTITEXTEDIT: Benchmarking Cross-Lingual Degradation in Text-in-Image Editing
by: Cheng, Liwei, et al.
Published: (2026)

MotionEdit: Benchmarking and Learning Motion-Centric Image Editing
by: Wan, Yixin, et al.
Published: (2025)

Efficient Model Editing with Task-Localized Sparse Fine-tuning
by: Iurada, Leonardo, et al.
Published: (2025)

Meta-prompting Optimized Retrieval-augmented Generation
by: Rodrigues, João, et al.
Published: (2024)

CBVLM: Training-free Explainable Concept-based Large Vision Language Models for Medical Image Classification
by: Patrício, Cristiano, et al.
Published: (2025)

Uncovering Entity Identity Confusion in Multimodal Knowledge Editing
by: Wu, Shu, et al.
Published: (2026)

Human-Aligned MLLM Judges for Fine-Grained Image Editing Evaluation: A Benchmark, Framework, and Analysis
by: Liu, Runzhou, et al.
Published: (2026)

MDE-Edit: Masked Dual-Editing for Multi-Object Image Editing via Diffusion Models
by: Zhu, Hongyang, et al.
Published: (2025)

VLKEB: A Large Vision-Language Model Knowledge Editing Benchmark
by: Huang, Han, et al.
Published: (2024)

ETCHR: Editing To Clarify and Harness Reasoning
by: Zhang, Beichen, et al.
Published: (2026)

MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing
by: Zhang, Kai, et al.
Published: (2023)

Attribution Analysis Meets Model Editing: Advancing Knowledge Correction in Vision Language Models with VisEdit
by: Chen, Qizhou, et al.
Published: (2024)

Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing
by: Song, Tingyu, et al.
Published: (2026)

LLMs can see and hear without any training
by: Ashutosh, Kumar, et al.
Published: (2025)

S3Editor: A Sparse Semantic-Disentangled Self-Training Framework for Face Video Editing
by: Wang, Guangzhi, et al.
Published: (2024)

Error-Driven Scene Editing for 3D Grounding in Large Language Models
by: Zhang, Yue, et al.
Published: (2025)

VINCIE: Unlocking In-context Image Editing from Video
by: Qu, Leigang, et al.
Published: (2025)

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing
by: Wu, Keming, et al.
Published: (2025)

DreamSwapV: Mask-guided Subject Swapping for Any Customized Video Editing
by: Wang, Weitao, et al.
Published: (2025)

MLLM-as-a-Judge for Image Safety without Human Labeling
by: Wang, Zhenting, et al.
Published: (2024)

VIGiA: Instructional Video Guidance via Dialogue Reasoning and Retrieval
by: Glória-Silva, Diogo, et al.
Published: (2026)

DreamColour: Controllable Video Colour Editing without Training
by: Utintu, Chaitat, et al.
Published: (2024)

Versatile Editing of Video Content, Actions, and Dynamics without Training
by: Kulikov, Vladimir, et al.
Published: (2026)

Zero-Shot Action Recognition in Surveillance Videos
by: Pereira, Joao, et al.
Published: (2024)