Salvato in:
| Autori principali: | Wang, Lei, Xu, Wanyu, Hu, Zhiqiang, Lan, Yihuai, Dong, Shan, Wang, Hao, Lee, Roy Ka-Wei, Lim, Ee-Peng |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2024
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2402.17971 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
LLM-Based Agent Society Investigation: Collaboration and Confrontation in Avalon Gameplay
di: Lan, Yihuai, et al.
Pubblicazione: (2023)
di: Lan, Yihuai, et al.
Pubblicazione: (2023)
The Whole is Better than the Sum: Using Aggregated Demonstrations in In-Context Learning for Sequential Recommendation
di: Wang, Lei, et al.
Pubblicazione: (2024)
di: Wang, Lei, et al.
Pubblicazione: (2024)
PCToolkit: A Unified Plug-and-Play Prompt Compression Toolkit of Large Language Models
di: Li, Jinyi, et al.
Pubblicazione: (2024)
di: Li, Jinyi, et al.
Pubblicazione: (2024)
See It All: Contextualized Late Aggregation for 3D Dense Captioning
di: Kim, Minjung, et al.
Pubblicazione: (2024)
di: Kim, Minjung, et al.
Pubblicazione: (2024)
Modularized Networks for Few-shot Hateful Meme Detection
di: Cao, Rui, et al.
Pubblicazione: (2024)
di: Cao, Rui, et al.
Pubblicazione: (2024)
Towards Unbiased Cross-Modal Representation Learning for Food Image-to-Recipe Retrieval
di: Wang, Qing, et al.
Pubblicazione: (2025)
di: Wang, Qing, et al.
Pubblicazione: (2025)
From Perception to Action: An Interactive Benchmark for Vision Reasoning
di: Wu, Yuhao, et al.
Pubblicazione: (2026)
di: Wu, Yuhao, et al.
Pubblicazione: (2026)
Optimizing Prompts for Text-to-Image Generation
di: Hao, Yaru, et al.
Pubblicazione: (2022)
di: Hao, Yaru, et al.
Pubblicazione: (2022)
MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs
di: Wang, Lei, et al.
Pubblicazione: (2024)
di: Wang, Lei, et al.
Pubblicazione: (2024)
MotionEdit: Benchmarking and Learning Motion-Centric Image Editing
di: Wan, Yixin, et al.
Pubblicazione: (2025)
di: Wan, Yixin, et al.
Pubblicazione: (2025)
Demystifying Hateful Content: Leveraging Large Multimodal Models for Hateful Meme Detection with Explainable Decisions
di: Hee, Ming Shan, et al.
Pubblicazione: (2025)
di: Hee, Ming Shan, et al.
Pubblicazione: (2025)
Bridging Modalities: Enhancing Cross-Modality Hate Speech Detection with Few-Shot In-Context Learning
di: Hee, Ming Shan, et al.
Pubblicazione: (2024)
di: Hee, Ming Shan, et al.
Pubblicazione: (2024)
Benchmarking Large Language Models for Image Classification of Marine Mammals
di: Qi, Yijiashun, et al.
Pubblicazione: (2024)
di: Qi, Yijiashun, et al.
Pubblicazione: (2024)
On Reasoning Behind Next Occupation Recommendation
di: Dong, Shan, et al.
Pubblicazione: (2026)
di: Dong, Shan, et al.
Pubblicazione: (2026)
Mitigating Cross-modal Representation Bias for Multicultural Image-to-Recipe Retrieval
di: Wang, Qing, et al.
Pubblicazione: (2025)
di: Wang, Qing, et al.
Pubblicazione: (2025)
InstructAV: Instruction Fine-tuning Large Language Models for Authorship Verification
di: Hu, Yujia, et al.
Pubblicazione: (2024)
di: Hu, Yujia, et al.
Pubblicazione: (2024)
Humor in Pixels: Benchmarking Large Multimodal Models Understanding of Online Comics
di: Ryan, Yuriel, et al.
Pubblicazione: (2025)
di: Ryan, Yuriel, et al.
Pubblicazione: (2025)
SuperWriter: Reflection-Driven Long-Form Generation with Large Language Models
di: Wu, Yuhao, et al.
Pubblicazione: (2025)
di: Wu, Yuhao, et al.
Pubblicazione: (2025)
Kosmos-G: Generating Images in Context with Multimodal Large Language Models
di: Pan, Xichen, et al.
Pubblicazione: (2023)
di: Pan, Xichen, et al.
Pubblicazione: (2023)
DiffChat: Learning to Chat with Text-to-Image Synthesis Models for Interactive Image Creation
di: Wang, Jiapeng, et al.
Pubblicazione: (2024)
di: Wang, Jiapeng, et al.
Pubblicazione: (2024)
An Empirical Study on Prompt Compression for Large Language Models
di: Zhang, Zheng, et al.
Pubblicazione: (2025)
di: Zhang, Zheng, et al.
Pubblicazione: (2025)
A Unified Agentic Framework for Evaluating Conditional Image Generation
di: Wang, Jifang, et al.
Pubblicazione: (2025)
di: Wang, Jifang, et al.
Pubblicazione: (2025)
Toxicity Red-Teaming: Benchmarking LLM Safety in Singapore's Low-Resource Languages
di: Hu, Yujia, et al.
Pubblicazione: (2025)
di: Hu, Yujia, et al.
Pubblicazione: (2025)
LongGenBench: Benchmarking Long-Form Generation in Long Context LLMs
di: Wu, Yuhao, et al.
Pubblicazione: (2024)
di: Wu, Yuhao, et al.
Pubblicazione: (2024)
LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning
di: Wu, Yuhao, et al.
Pubblicazione: (2025)
di: Wu, Yuhao, et al.
Pubblicazione: (2025)
DaLPSR: Leverage Degradation-Aligned Language Prompt for Real-World Image Super-Resolution
di: Jiang, Aiwen, et al.
Pubblicazione: (2024)
di: Jiang, Aiwen, et al.
Pubblicazione: (2024)
HateXScore: A Metric Suite for Evaluating Reasoning Quality in Hate Speech Explanations
di: Hu, Yujia, et al.
Pubblicazione: (2026)
di: Hu, Yujia, et al.
Pubblicazione: (2026)
Enhancing Large Vision Language Models with Self-Training on Image Comprehension
di: Deng, Yihe, et al.
Pubblicazione: (2024)
di: Deng, Yihe, et al.
Pubblicazione: (2024)
Understanding Fairness-Accuracy Trade-offs in Machine Learning Models: Does Promoting Fairness Undermine Performance?
di: Liu, Junhua, et al.
Pubblicazione: (2024)
di: Liu, Junhua, et al.
Pubblicazione: (2024)
OVFoodSeg: Elevating Open-Vocabulary Food Image Segmentation via Image-Informed Textual Representation
di: Wu, Xiongwei, et al.
Pubblicazione: (2024)
di: Wu, Xiongwei, et al.
Pubblicazione: (2024)
Hierarchical Visual Agent: Managing Contexts in Joint Image-Text Space for Advanced Chart Reasoning
di: Dong, Qihua, et al.
Pubblicazione: (2026)
di: Dong, Qihua, et al.
Pubblicazione: (2026)
Towards Objective and Unbiased Decision Assessments with LLM-Enhanced Hierarchical Attention Networks
di: Liu, Junhua, et al.
Pubblicazione: (2024)
di: Liu, Junhua, et al.
Pubblicazione: (2024)
Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception
di: Wei, Lai, et al.
Pubblicazione: (2026)
di: Wei, Lai, et al.
Pubblicazione: (2026)
Image Captioning via Compact Bidirectional Architecture
di: Song, Zijie, et al.
Pubblicazione: (2022)
di: Song, Zijie, et al.
Pubblicazione: (2022)
HyperWalker: Dynamic Hypergraph-Based Deep Diagnosis for Multi-Hop Clinical Modeling across EHR and X-Ray in Medical VLMs
di: Yang, Yuezhe, et al.
Pubblicazione: (2026)
di: Yang, Yuezhe, et al.
Pubblicazione: (2026)
Prioritizing Image-Related Tokens Enhances Vision-Language Pre-Training
di: Chen, Yangyi, et al.
Pubblicazione: (2025)
di: Chen, Yangyi, et al.
Pubblicazione: (2025)
IMAGINE-E: Image Generation Intelligence Evaluation of State-of-the-art Text-to-Image Models
di: Lei, Jiayi, et al.
Pubblicazione: (2025)
di: Lei, Jiayi, et al.
Pubblicazione: (2025)
An Online Reference-Free Evaluation Framework for Flowchart Image-to-Code Generation
di: Nguyen, Giang Son, et al.
Pubblicazione: (2026)
di: Nguyen, Giang Son, et al.
Pubblicazione: (2026)
Seeing Culture: A Benchmark for Visual Reasoning and Grounding
di: Satar, Burak, et al.
Pubblicazione: (2025)
di: Satar, Burak, et al.
Pubblicazione: (2025)
DreamArtist++: Controllable One-Shot Text-to-Image Generation via Positive-Negative Adapter
di: Dong, Ziyi, et al.
Pubblicazione: (2022)
di: Dong, Ziyi, et al.
Pubblicazione: (2022)
Documenti analoghi
-
LLM-Based Agent Society Investigation: Collaboration and Confrontation in Avalon Gameplay
di: Lan, Yihuai, et al.
Pubblicazione: (2023) -
The Whole is Better than the Sum: Using Aggregated Demonstrations in In-Context Learning for Sequential Recommendation
di: Wang, Lei, et al.
Pubblicazione: (2024) -
PCToolkit: A Unified Plug-and-Play Prompt Compression Toolkit of Large Language Models
di: Li, Jinyi, et al.
Pubblicazione: (2024) -
See It All: Contextualized Late Aggregation for 3D Dense Captioning
di: Kim, Minjung, et al.
Pubblicazione: (2024) -
Modularized Networks for Few-shot Hateful Meme Detection
di: Cao, Rui, et al.
Pubblicazione: (2024)