Enregistré dans:
| Auteurs principaux: | Yang, Zhantao, Feng, Ruili, Yan, Keyu, Wang, Huangji, Wang, Zhicai, Zhu, Shangwen, Zhang, Han, Xiao, Jie, Wu, Pingyu, Zhu, Kai, Chen, Jixuan, Xie, Chen-Wei, Yang, Yue, Zhang, Hongyang, Liu, Yu, Cheng, Fan |
|---|---|
| Format: | Preprint |
| Publié: |
2024
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2407.03314 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
Addressing the ID-Matching Challenge in Long Video Captioning
par: Yang, Zhantao, et autres
Publié: (2025)
par: Yang, Zhantao, et autres
Publié: (2025)
MAMBO-G: Magnitude-Aware Mitigation for Boosted Guidance
par: Zhu, Shangwen, et autres
Publié: (2025)
par: Zhu, Shangwen, et autres
Publié: (2025)
Incantation: Natural Language as the Action Interface for Multi-Entity Video World Models
par: Zhu, Shangwen, et autres
Publié: (2026)
par: Zhu, Shangwen, et autres
Publié: (2026)
Lipschitz Singularities in Diffusion Models
par: Yang, Zhantao, et autres
Publié: (2023)
par: Yang, Zhantao, et autres
Publié: (2023)
RTGen: Generating Region-Text Pairs for Open-Vocabulary Object Detection
par: Chen, Fangyi, et autres
Publié: (2024)
par: Chen, Fangyi, et autres
Publié: (2024)
Instability in Diffusion ODEs: An Explanation for Inaccurate Image Reconstruction
par: Zhang, Han, et autres
Publié: (2025)
par: Zhang, Han, et autres
Publié: (2025)
Improved Video VAE for Latent Video Diffusion Model
par: Wu, Pingyu, et autres
Publié: (2024)
par: Wu, Pingyu, et autres
Publié: (2024)
Research on Aerodynamic Performance Prediction of Airfoils Based on a Fusion Algorithm of Transformer and GAN
par: MaolinYang, et autres
Publié: (2025)
par: MaolinYang, et autres
Publié: (2025)
Uncertainty-Aware Pedestrian Attribute Recognition via Evidential Deep Learning
par: Lou, Zhuofan, et autres
Publié: (2026)
par: Lou, Zhuofan, et autres
Publié: (2026)
BACON: Bayesian Optimal Condensation Framework for Dataset Distillation
par: Zhou, Zheng, et autres
Publié: (2024)
par: Zhou, Zheng, et autres
Publié: (2024)
CAPability: A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Thoroughness
par: Liu, Zhihang, et autres
Publié: (2025)
par: Liu, Zhihang, et autres
Publié: (2025)
Two Heads Are Better Than One: Integrating Knowledge from Knowledge Graphs and Large Language Models for Entity Alignment
par: Yang, Linyao, et autres
Publié: (2024)
par: Yang, Linyao, et autres
Publié: (2024)
Mitigating Hallucinations in Large Vision-Language Models without Performance Degradation
par: Zhu, Xingyu, et autres
Publié: (2026)
par: Zhu, Xingyu, et autres
Publié: (2026)
Fuzzy Reasoning Chain (FRC): An Innovative Reasoning Framework from Fuzziness to Clarity
par: Chen, Ping, et autres
Publié: (2025)
par: Chen, Ping, et autres
Publié: (2025)
Scene Graph-guided SegCaptioning Transformer with Fine-grained Alignment for Controllable Video Segmentation and Captioning
par: Zhang, Xu, et autres
Publié: (2026)
par: Zhang, Xu, et autres
Publié: (2026)
Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation
par: Zhu, Xingyu, et autres
Publié: (2026)
par: Zhu, Xingyu, et autres
Publié: (2026)
Benchmarking and Improving Large Vision-Language Models for Fundamental Visual Graph Understanding and Reasoning
par: Zhu, Yingjie, et autres
Publié: (2024)
par: Zhu, Yingjie, et autres
Publié: (2024)
SC-Captioner: Improving Image Captioning with Self-Correction by Reinforcement Learning
par: Zhang, Lin, et autres
Publié: (2025)
par: Zhang, Lin, et autres
Publié: (2025)
Navigating by Old Maps: The Pitfalls of Static Mechanistic Localization in LLM Post-Training
par: Chen, Hang, et autres
Publié: (2026)
par: Chen, Hang, et autres
Publié: (2026)
STELAR-VISION: Self-Topology-Aware Efficient Learning for Aligned Reasoning in Vision
par: Li, Chen, et autres
Publié: (2025)
par: Li, Chen, et autres
Publié: (2025)
The Solution for the ICCV 2023 1st Scientific Figure Captioning Challenge
par: Chao, Dian, et autres
Publié: (2024)
par: Chao, Dian, et autres
Publié: (2024)
Res-Bench: Benchmarking the Robustness of Multimodal Large Language Models to Dynamic Resolution Input
par: Li, Chenxu, et autres
Publié: (2025)
par: Li, Chenxu, et autres
Publié: (2025)
Sentence Bag Graph Formulation for Biomedical Distant Supervision Relation Extraction
par: Zhang, Hao, et autres
Publié: (2023)
par: Zhang, Hao, et autres
Publié: (2023)
PP-DocBee: Improving Multimodal Document Understanding Through a Bag of Tricks
par: Ni, Feng, et autres
Publié: (2025)
par: Ni, Feng, et autres
Publié: (2025)
Probabilistic Concept Graph Reasoning for Multimodal Misinformation Detection
par: Yang, Ruichao, et autres
Publié: (2026)
par: Yang, Ruichao, et autres
Publié: (2026)
CycleResearcher: Improving Automated Research via Automated Review
par: Weng, Yixuan, et autres
Publié: (2024)
par: Weng, Yixuan, et autres
Publié: (2024)
Instruct or Interact? Exploring and Eliciting LLMs' Capability in Code Snippet Adaptation Through Prompt Engineering
par: Zhang, Tanghaoran, et autres
Publié: (2024)
par: Zhang, Tanghaoran, et autres
Publié: (2024)
MDE-Edit: Masked Dual-Editing for Multi-Object Image Editing via Diffusion Models
par: Zhu, Hongyang, et autres
Publié: (2025)
par: Zhu, Hongyang, et autres
Publié: (2025)
Benchmarking and Improving Detail Image Caption
par: Dong, Hongyuan, et autres
Publié: (2024)
par: Dong, Hongyuan, et autres
Publié: (2024)
Set Prediction Guided by Semantic Concepts for Diverse Video Captioning
par: Lu, Yifan, et autres
Publié: (2023)
par: Lu, Yifan, et autres
Publié: (2023)
Model Inversion Attacks Through Target-Specific Conditional Diffusion Models
par: Li, Ouxiang, et autres
Publié: (2024)
par: Li, Ouxiang, et autres
Publié: (2024)
WsiCaption: Multiple Instance Generation of Pathology Reports for Gigapixel Whole-Slide Images
par: Chen, Pingyi, et autres
Publié: (2023)
par: Chen, Pingyi, et autres
Publié: (2023)
Dynamic Multimodal Prototype Learning in Vision-Language Models
par: Zhu, Xingyu, et autres
Publié: (2025)
par: Zhu, Xingyu, et autres
Publié: (2025)
LLaVA-Phi: Efficient Multi-Modal Assistant with Small Language Model
par: Zhu, Yichen, et autres
Publié: (2024)
par: Zhu, Yichen, et autres
Publié: (2024)
RSCC: A Large-Scale Remote Sensing Change Caption Dataset for Disaster Events
par: Chen, Zhenyuan, et autres
Publié: (2025)
par: Chen, Zhenyuan, et autres
Publié: (2025)
IG Captioner: Information Gain Captioners are Strong Zero-shot Classifiers
par: Yang, Chenglin, et autres
Publié: (2023)
par: Yang, Chenglin, et autres
Publié: (2023)
Graph embedded low‐light image enhancement transformer based on federated learning for Internet of Vehicle under tunnel environment
par: Yuan Shu, et autres
Publié: (2024)
par: Yuan Shu, et autres
Publié: (2024)
Bag of Tricks to Boost Adversarial Transferability
par: Zhang, Zeliang, et autres
Publié: (2024)
par: Zhang, Zeliang, et autres
Publié: (2024)
Towards Sequence Modeling Alignment between Tokenizer and Autoregressive Model
par: Wu, Pingyu, et autres
Publié: (2025)
par: Wu, Pingyu, et autres
Publié: (2025)
SCOPE: Simulating Cross-game Operations in Playable Environments for FPS World Models
par: Tong, Zizhao, et autres
Publié: (2026)
par: Tong, Zizhao, et autres
Publié: (2026)
Documents similaires
-
Addressing the ID-Matching Challenge in Long Video Captioning
par: Yang, Zhantao, et autres
Publié: (2025) -
MAMBO-G: Magnitude-Aware Mitigation for Boosted Guidance
par: Zhu, Shangwen, et autres
Publié: (2025) -
Incantation: Natural Language as the Action Interface for Multi-Entity Video World Models
par: Zhu, Shangwen, et autres
Publié: (2026) -
Lipschitz Singularities in Diffusion Models
par: Yang, Zhantao, et autres
Publié: (2023) -
RTGen: Generating Region-Text Pairs for Open-Vocabulary Object Detection
par: Chen, Fangyi, et autres
Publié: (2024)