:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Yang, Zhantao, Feng, Ruili, Yan, Keyu, Wang, Huangji, Wang, Zhicai, Zhu, Shangwen, Zhang, Han, Xiao, Jie, Wu, Pingyu, Zhu, Kai, Chen, Jixuan, Xie, Chen-Wei, Yang, Yue, Zhang, Hongyang, Liu, Yu, Cheng, Fan
Format:	Preprint
Publié:	2024
Sujets:	Computer Vision and Pattern Recognition Computation and Language Databases
Accès en ligne:	https://arxiv.org/abs/2407.03314
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

Addressing the ID-Matching Challenge in Long Video Captioning
par: Yang, Zhantao, et autres
Publié: (2025)

MAMBO-G: Magnitude-Aware Mitigation for Boosted Guidance
par: Zhu, Shangwen, et autres
Publié: (2025)

Incantation: Natural Language as the Action Interface for Multi-Entity Video World Models
par: Zhu, Shangwen, et autres
Publié: (2026)

Lipschitz Singularities in Diffusion Models
par: Yang, Zhantao, et autres
Publié: (2023)

RTGen: Generating Region-Text Pairs for Open-Vocabulary Object Detection
par: Chen, Fangyi, et autres
Publié: (2024)

Instability in Diffusion ODEs: An Explanation for Inaccurate Image Reconstruction
par: Zhang, Han, et autres
Publié: (2025)

Improved Video VAE for Latent Video Diffusion Model
par: Wu, Pingyu, et autres
Publié: (2024)

Research on Aerodynamic Performance Prediction of Airfoils Based on a Fusion Algorithm of Transformer and GAN
par: MaolinYang, et autres
Publié: (2025)

Uncertainty-Aware Pedestrian Attribute Recognition via Evidential Deep Learning
par: Lou, Zhuofan, et autres
Publié: (2026)

BACON: Bayesian Optimal Condensation Framework for Dataset Distillation
par: Zhou, Zheng, et autres
Publié: (2024)

CAPability: A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Thoroughness
par: Liu, Zhihang, et autres
Publié: (2025)

Two Heads Are Better Than One: Integrating Knowledge from Knowledge Graphs and Large Language Models for Entity Alignment
par: Yang, Linyao, et autres
Publié: (2024)

Mitigating Hallucinations in Large Vision-Language Models without Performance Degradation
par: Zhu, Xingyu, et autres
Publié: (2026)

Fuzzy Reasoning Chain (FRC): An Innovative Reasoning Framework from Fuzziness to Clarity
par: Chen, Ping, et autres
Publié: (2025)

Scene Graph-guided SegCaptioning Transformer with Fine-grained Alignment for Controllable Video Segmentation and Captioning
par: Zhang, Xu, et autres
Publié: (2026)

Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation
par: Zhu, Xingyu, et autres
Publié: (2026)

Benchmarking and Improving Large Vision-Language Models for Fundamental Visual Graph Understanding and Reasoning
par: Zhu, Yingjie, et autres
Publié: (2024)

SC-Captioner: Improving Image Captioning with Self-Correction by Reinforcement Learning
par: Zhang, Lin, et autres
Publié: (2025)

Navigating by Old Maps: The Pitfalls of Static Mechanistic Localization in LLM Post-Training
par: Chen, Hang, et autres
Publié: (2026)

STELAR-VISION: Self-Topology-Aware Efficient Learning for Aligned Reasoning in Vision
par: Li, Chen, et autres
Publié: (2025)

The Solution for the ICCV 2023 1st Scientific Figure Captioning Challenge
par: Chao, Dian, et autres
Publié: (2024)

Res-Bench: Benchmarking the Robustness of Multimodal Large Language Models to Dynamic Resolution Input
par: Li, Chenxu, et autres
Publié: (2025)

Sentence Bag Graph Formulation for Biomedical Distant Supervision Relation Extraction
par: Zhang, Hao, et autres
Publié: (2023)

PP-DocBee: Improving Multimodal Document Understanding Through a Bag of Tricks
par: Ni, Feng, et autres
Publié: (2025)

Probabilistic Concept Graph Reasoning for Multimodal Misinformation Detection
par: Yang, Ruichao, et autres
Publié: (2026)

CycleResearcher: Improving Automated Research via Automated Review
par: Weng, Yixuan, et autres
Publié: (2024)

Instruct or Interact? Exploring and Eliciting LLMs' Capability in Code Snippet Adaptation Through Prompt Engineering
par: Zhang, Tanghaoran, et autres
Publié: (2024)

MDE-Edit: Masked Dual-Editing for Multi-Object Image Editing via Diffusion Models
par: Zhu, Hongyang, et autres
Publié: (2025)

Benchmarking and Improving Detail Image Caption
par: Dong, Hongyuan, et autres
Publié: (2024)

Set Prediction Guided by Semantic Concepts for Diverse Video Captioning
par: Lu, Yifan, et autres
Publié: (2023)

Model Inversion Attacks Through Target-Specific Conditional Diffusion Models
par: Li, Ouxiang, et autres
Publié: (2024)

WsiCaption: Multiple Instance Generation of Pathology Reports for Gigapixel Whole-Slide Images
par: Chen, Pingyi, et autres
Publié: (2023)

Dynamic Multimodal Prototype Learning in Vision-Language Models
par: Zhu, Xingyu, et autres
Publié: (2025)

LLaVA-Phi: Efficient Multi-Modal Assistant with Small Language Model
par: Zhu, Yichen, et autres
Publié: (2024)

RSCC: A Large-Scale Remote Sensing Change Caption Dataset for Disaster Events
par: Chen, Zhenyuan, et autres
Publié: (2025)

IG Captioner: Information Gain Captioners are Strong Zero-shot Classifiers
par: Yang, Chenglin, et autres
Publié: (2023)

Graph embedded low‐light image enhancement transformer based on federated learning for Internet of Vehicle under tunnel environment
par: Yuan Shu, et autres
Publié: (2024)

Bag of Tricks to Boost Adversarial Transferability
par: Zhang, Zeliang, et autres
Publié: (2024)

Towards Sequence Modeling Alignment between Tokenizer and Autoregressive Model
par: Wu, Pingyu, et autres
Publié: (2025)

SCOPE: Simulating Cross-game Operations in Playable Environments for FPS World Models
par: Tong, Zizhao, et autres
Publié: (2026)