:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Wang, Lei, Xu, Wanyu, Hu, Zhiqiang, Lan, Yihuai, Dong, Shan, Wang, Hao, Lee, Roy Ka-Wei, Lim, Ee-Peng
Natura:	Preprint
Pubblicazione:	2024
Soggetti:	Computer Vision and Pattern Recognition Artificial Intelligence Computation and Language
Accesso online:	https://arxiv.org/abs/2402.17971
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

LLM-Based Agent Society Investigation: Collaboration and Confrontation in Avalon Gameplay
di: Lan, Yihuai, et al.
Pubblicazione: (2023)

The Whole is Better than the Sum: Using Aggregated Demonstrations in In-Context Learning for Sequential Recommendation
di: Wang, Lei, et al.
Pubblicazione: (2024)

PCToolkit: A Unified Plug-and-Play Prompt Compression Toolkit of Large Language Models
di: Li, Jinyi, et al.
Pubblicazione: (2024)

See It All: Contextualized Late Aggregation for 3D Dense Captioning
di: Kim, Minjung, et al.
Pubblicazione: (2024)

Modularized Networks for Few-shot Hateful Meme Detection
di: Cao, Rui, et al.
Pubblicazione: (2024)

Towards Unbiased Cross-Modal Representation Learning for Food Image-to-Recipe Retrieval
di: Wang, Qing, et al.
Pubblicazione: (2025)

From Perception to Action: An Interactive Benchmark for Vision Reasoning
di: Wu, Yuhao, et al.
Pubblicazione: (2026)

Optimizing Prompts for Text-to-Image Generation
di: Hao, Yaru, et al.
Pubblicazione: (2022)

MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs
di: Wang, Lei, et al.
Pubblicazione: (2024)

MotionEdit: Benchmarking and Learning Motion-Centric Image Editing
di: Wan, Yixin, et al.
Pubblicazione: (2025)

Demystifying Hateful Content: Leveraging Large Multimodal Models for Hateful Meme Detection with Explainable Decisions
di: Hee, Ming Shan, et al.
Pubblicazione: (2025)

Bridging Modalities: Enhancing Cross-Modality Hate Speech Detection with Few-Shot In-Context Learning
di: Hee, Ming Shan, et al.
Pubblicazione: (2024)

Benchmarking Large Language Models for Image Classification of Marine Mammals
di: Qi, Yijiashun, et al.
Pubblicazione: (2024)

On Reasoning Behind Next Occupation Recommendation
di: Dong, Shan, et al.
Pubblicazione: (2026)

Mitigating Cross-modal Representation Bias for Multicultural Image-to-Recipe Retrieval
di: Wang, Qing, et al.
Pubblicazione: (2025)

InstructAV: Instruction Fine-tuning Large Language Models for Authorship Verification
di: Hu, Yujia, et al.
Pubblicazione: (2024)

Humor in Pixels: Benchmarking Large Multimodal Models Understanding of Online Comics
di: Ryan, Yuriel, et al.
Pubblicazione: (2025)

SuperWriter: Reflection-Driven Long-Form Generation with Large Language Models
di: Wu, Yuhao, et al.
Pubblicazione: (2025)

Kosmos-G: Generating Images in Context with Multimodal Large Language Models
di: Pan, Xichen, et al.
Pubblicazione: (2023)

DiffChat: Learning to Chat with Text-to-Image Synthesis Models for Interactive Image Creation
di: Wang, Jiapeng, et al.
Pubblicazione: (2024)

An Empirical Study on Prompt Compression for Large Language Models
di: Zhang, Zheng, et al.
Pubblicazione: (2025)

A Unified Agentic Framework for Evaluating Conditional Image Generation
di: Wang, Jifang, et al.
Pubblicazione: (2025)

Toxicity Red-Teaming: Benchmarking LLM Safety in Singapore's Low-Resource Languages
di: Hu, Yujia, et al.
Pubblicazione: (2025)

LongGenBench: Benchmarking Long-Form Generation in Long Context LLMs
di: Wu, Yuhao, et al.
Pubblicazione: (2024)

LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning
di: Wu, Yuhao, et al.
Pubblicazione: (2025)

DaLPSR: Leverage Degradation-Aligned Language Prompt for Real-World Image Super-Resolution
di: Jiang, Aiwen, et al.
Pubblicazione: (2024)

HateXScore: A Metric Suite for Evaluating Reasoning Quality in Hate Speech Explanations
di: Hu, Yujia, et al.
Pubblicazione: (2026)

Enhancing Large Vision Language Models with Self-Training on Image Comprehension
di: Deng, Yihe, et al.
Pubblicazione: (2024)

Understanding Fairness-Accuracy Trade-offs in Machine Learning Models: Does Promoting Fairness Undermine Performance?
di: Liu, Junhua, et al.
Pubblicazione: (2024)

OVFoodSeg: Elevating Open-Vocabulary Food Image Segmentation via Image-Informed Textual Representation
di: Wu, Xiongwei, et al.
Pubblicazione: (2024)

Hierarchical Visual Agent: Managing Contexts in Joint Image-Text Space for Advanced Chart Reasoning
di: Dong, Qihua, et al.
Pubblicazione: (2026)

Towards Objective and Unbiased Decision Assessments with LLM-Enhanced Hierarchical Attention Networks
di: Liu, Junhua, et al.
Pubblicazione: (2024)

Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception
di: Wei, Lai, et al.
Pubblicazione: (2026)

Image Captioning via Compact Bidirectional Architecture
di: Song, Zijie, et al.
Pubblicazione: (2022)

HyperWalker: Dynamic Hypergraph-Based Deep Diagnosis for Multi-Hop Clinical Modeling across EHR and X-Ray in Medical VLMs
di: Yang, Yuezhe, et al.
Pubblicazione: (2026)

Prioritizing Image-Related Tokens Enhances Vision-Language Pre-Training
di: Chen, Yangyi, et al.
Pubblicazione: (2025)

IMAGINE-E: Image Generation Intelligence Evaluation of State-of-the-art Text-to-Image Models
di: Lei, Jiayi, et al.
Pubblicazione: (2025)

An Online Reference-Free Evaluation Framework for Flowchart Image-to-Code Generation
di: Nguyen, Giang Son, et al.
Pubblicazione: (2026)

Seeing Culture: A Benchmark for Visual Reasoning and Grounding
di: Satar, Burak, et al.
Pubblicazione: (2025)

DreamArtist++: Controllable One-Shot Text-to-Image Generation via Positive-Negative Adapter
di: Dong, Ziyi, et al.
Pubblicazione: (2022)