:: Library Catalog

Imagen de Portada

Guardado en:

Detalles Bibliográficos
Autores principales:	Yadav, Ankit, Vishwakarma, Dinesh Kumar
Formato:	Preprint
Publicado:	2024
Materias:	Computer Vision and Pattern Recognition
Acceso en línea:	https://arxiv.org/abs/2401.06999
Etiquetas:	Agregar Etiqueta Sin Etiquetas, Sea el primero en etiquetar este registro!

Ejemplares similares

Towards Effective Image Forensics via A Novel Computationally Efficient Framework and A New Image Splice Dataset
por: Yadav, Ankit, et al.
Publicado: (2024)

A Visually Attentive Splice Localization Network with Multi-Domain Feature Extractor and Multi-Receptive Field Upsampler
por: Yadav, Ankit, et al.
Publicado: (2024)

A Noise and Edge extraction-based dual-branch method for Shallowfake and Deepfake Localization
por: Dagar, Deepak, et al.
Publicado: (2024)

Gait Recognition with Temporal Kolmogorov-Arnold Networks
por: Asad, Mohammed, et al.
Publicado: (2026)

Contrastive Learning-based Multi Modal Architecture for Emoticon Prediction by Employing Image-Text Pairs
por: Pandey, Ananya, et al.
Publicado: (2024)

Tex-ViT: A Generalizable, Robust, Texture-based dual-branch cross-attention deepfake detector
por: Dagar, Deepak, et al.
Publicado: (2024)

Target-Dependent Multimodal Sentiment Analysis Via Employing Visual-to Emotional-Caption Translation Network using Visual-Caption Pairs
por: Pandey, Ananya, et al.
Publicado: (2024)

VyAnG-Net: A Novel Multi-Modal Sarcasm Recognition Model by Uncovering Visual, Acoustic and Glossary Features
por: Pandey, Ananya, et al.
Publicado: (2024)

Modelling Visual Semantics via Image Captioning to extract Enhanced Multi-Level Cross-Modal Semantic Incongruity Representation with Attention for Multimodal Sarcasm Detection
por: Aggarwal, Sajal, et al.
Publicado: (2024)

FCR: Investigating Generative AI models for Forensic Craniofacial Reconstruction
por: Prasad, Ravi Shankar, et al.
Publicado: (2025)

DiffSSD: A Diffusion-Based Dataset For Speech Forensics
por: Bhagtani, Kratika, et al.
Publicado: (2024)

SPOT-Face: Forensic Face Identification using Attention Guided Optimal Transport
por: Prasad, Ravi Shankar, et al.
Publicado: (2026)

Efficient Label Refinement for Face Parsing Under Extreme Poses Using 3D Gaussian Splatting
por: Gahlawat, Ankit, et al.
Publicado: (2025)

Clue Matters: Leveraging Latent Visual Clues to Empower Video Reasoning
por: zhang, Kaixin, et al.
Publicado: (2026)

Exploring Primitive Visual Measurement Understanding and the Role of Output Format in Learning in Vision-Language Models
por: Yadav, Ankit, et al.
Publicado: (2025)

Face Detection: Present State and Research Directions
por: Prabhat, Purnendu, et al.
Publicado: (2024)

Foundation Models For Seismic Data Processing: An Extensive Review
por: Fuchs, Fabian, et al.
Publicado: (2025)

Revisiting Vision Language Foundations for No-Reference Image Quality Assessment
por: Yadav, Ankit, et al.
Publicado: (2025)

EMAG: Self-Rectifying Diffusion Sampling with Exponential Moving Average Guidance
por: Yadav, Ankit, et al.
Publicado: (2025)

Temporal Image Forensics: A Review and Critical Evaluation
por: Jöchl, Robert, et al.
Publicado: (2025)

AnimalClue: Recognizing Animals by their Traces
por: Shinoda, Risa, et al.
Publicado: (2025)

Deepfake Media Forensics: State of the Art and Challenges Ahead
por: Amerini, Irene, et al.
Publicado: (2024)

DF2023: The Digital Forensics 2023 Dataset for Image Forgery Detection
por: Fischinger, David, et al.
Publicado: (2025)

MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity
por: Liu, Yangzhou, et al.
Publicado: (2024)

EditSleuth: A Dataset of Grounded Reasoning Chains for Image-Edit Forensics
por: Nguyen, Van-Loc, et al.
Publicado: (2026)

Classification with 2-D Convolutional Neural Networks for breast cancer diagnosis
por: Sharma, Anuraganand, et al.
Publicado: (2020)

STRIDE: Training-Free Diversity Guidance via PCA-Directed Feature Perturbation in Single-Step Diffusion Models
por: Yadav, Ankit, et al.
Publicado: (2026)

Deepfake Forensic Analysis: Source Dataset Attribution and Legal Implications of Synthetic Media Manipulation
por: Cassia, Massimiliano, et al.
Publicado: (2025)

ClueTracer: Question-to-Vision Clue Tracing for Training-Free Hallucination Suppression in Multimodal Reasoning
por: Xi, Gongli, et al.
Publicado: (2026)

Improving Hierarchical Representations of Vectorized HD Maps with Perspective Clues
por: Zhang, Chi, et al.
Publicado: (2024)

MVFNet: Multipurpose Video Forensics Network using Multiple Forms of Forensic Evidence
por: Nguyen, Tai D., et al.
Publicado: (2025)

ForensicZip: More Tokens are Better but Not Necessary in Forensic Vision-Language Models
por: Lai, Yingxin, et al.
Publicado: (2026)

DataViz3D: An Novel Method Leveraging Online Holographic Modeling for Extensive Dataset Preprocessing and Visualization
por: Duan, Jinli
Publicado: (2024)

UnMA-CapSumT: Unified and Multi-Head Attention-driven Caption Summarization Transformer
por: Sharma, Dhruv, et al.
Publicado: (2024)

CLIP Multi-modal Hashing for Multimedia Retrieval
por: Zhu, Jian, et al.
Publicado: (2024)

Robust and Calibrated Detection of Authentic Multimedia Content
por: Hashmi, Sarim, et al.
Publicado: (2025)

DCPT: Darkness Clue-Prompted Tracking in Nighttime UAVs
por: Zhu, Jiawen, et al.
Publicado: (2023)

LWIRPOSE: A novel LWIR Thermal Image Dataset and Benchmark
por: Upadhyay, Avinash, et al.
Publicado: (2024)

Identity Clue Refinement and Enhancement for Visible-Infrared Person Re-Identification
por: Zhang, Guoqing, et al.
Publicado: (2025)

TopoGaussian: Inferring Internal Topology Structures from Visual Clues
por: Xiong, Xiaoyu, et al.
Publicado: (2025)