:: Library Catalog

Copertina

Salvato in:

Dettagli Bibliografici
Autori principali:	Huang, Fan, Zhang, Songheng, Kwak, Haewoon, An, Jisun
Natura:	Preprint
Pubblicazione:	2026
Soggetti:	Artificial Intelligence
Accesso online:	https://arxiv.org/abs/2604.01366
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Documenti analoghi

Understanding Moral Reasoning Trajectories in Large Language Models: Toward Probing-Based Explainability
di: Huang, Fan, et al.
Pubblicazione: (2026)

Vulnerability of LLMs' Stated Beliefs? LLMs Belief Resistance Check Through Strategic Persuasive Conversation Interventions
di: Huang, Fan, et al.
Pubblicazione: (2026)

ToBlend: Token-Level Blending With an Ensemble of LLMs to Attack AI-Generated Text Detection
di: Huang, Fan, et al.
Pubblicazione: (2024)

ChatGPT Rates Natural Language Explanation Quality Like Humans: But on Which Scales?
di: Huang, Fan, et al.
Pubblicazione: (2024)

Can Lessons From Human Teams Be Applied to Multi-Agent Systems? The Role of Structure, Diversity, and Interaction Dynamics
di: Muralidharan, Rasika, et al.
Pubblicazione: (2025)

XChoice: Explainable Evaluation of AI-Human Alignment in LLM-based Constrained Choice Decision Making
di: Qi, Weihong, et al.
Pubblicazione: (2026)

Can we trust the evaluation on ChatGPT?
di: Aiyappa, Rachith, et al.
Pubblicazione: (2023)

Benchmarking zero-shot stance detection with FlanT5-XXL: Insights from training data, prompting, and decoding strategies into its near-SoTA performance
di: Aiyappa, Rachith, et al.
Pubblicazione: (2024)

PluRule: A Benchmark for Moderating Pluralistic Communities on Social Media
di: Kachwala, Zoher, et al.
Pubblicazione: (2026)

Measuring and Mitigating Bias in Code Generated by Large Language Models
di: Chen, Yuxi, et al.
Pubblicazione: (2026)

A Cross-Cultural Comparison of LLM-based Public Opinion Simulation: Evaluating Chinese and U.S. Models on Diverse Societies
di: Qi, Weihong, et al.
Pubblicazione: (2025)

BiasBusters: Uncovering and Mitigating Tool Selection Bias in Large Language Models
di: Blankenstein, Thierry, et al.
Pubblicazione: (2025)

Mitigating Propensity Bias of Large Language Models for Recommender Systems
di: Zhang, Guixian, et al.
Pubblicazione: (2024)

Locating and Mitigating Gender Bias in Large Language Models
di: Cai, Yuchen, et al.
Pubblicazione: (2024)

Mitigating Cognitive Bias in RLHF by Altering Rationality
di: Horter, Tiffany, et al.
Pubblicazione: (2026)

CogLM: Tracking Cognitive Development of Large Language Models
di: Wang, Xinglin, et al.
Pubblicazione: (2024)

Multi-Persona Thinking for Bias Mitigation in Large Language Models
di: Chen, Yuxing, et al.
Pubblicazione: (2026)

Likelihood-based Mitigation of Evaluation Bias in Large Language Models
di: Oi, Masanari, et al.
Pubblicazione: (2024)

Mitigating Gender Bias in Code Large Language Models via Model Editing
di: Qin, Zhanyue, et al.
Pubblicazione: (2024)

BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses
di: Xu, Xin, et al.
Pubblicazione: (2025)

Enhancing Diagnostic Accuracy through Multi-Agent Conversations: Using Large Language Models to Mitigate Cognitive Bias
di: Ke, Yu He, et al.
Pubblicazione: (2024)

Simulating a Bias Mitigation Scenario in Large Language Models
di: Kiashemshaki, Kiana, et al.
Pubblicazione: (2025)

GenderAlign: An Alignment Dataset for Mitigating Gender Bias in Large Language Models
di: Zhang, Tao, et al.
Pubblicazione: (2024)

Large Language Model Bias Mitigation from the Perspective of Knowledge Editing
di: Chen, Ruizhe, et al.
Pubblicazione: (2024)

CogGPT: Unleashing the Power of Cognitive Dynamics on Large Language Models
di: Lv, Yaojia, et al.
Pubblicazione: (2024)

Attribution Bias in Large Language Models
di: Berman, Eliza, et al.
Pubblicazione: (2026)

Bias Fitting to Mitigate Length Bias of Reward Model in RLHF
di: Zhao, Kangwen, et al.
Pubblicazione: (2025)

BiasLab: A Multilingual, Dual-Framing Framework for Robust Measurement of Output-Level Bias in Large Language Models
di: Guey, William, et al.
Pubblicazione: (2026)

Instructed to Bias: Instruction-Tuned Language Models Exhibit Emergent Cognitive Bias
di: Itzhak, Itay, et al.
Pubblicazione: (2023)

Understanding and Mitigating Tokenization Bias in Language Models
di: Phan, Buu, et al.
Pubblicazione: (2024)

Identifying and Mitigating Social Bias Knowledge in Language Models
di: Chen, Ruizhe, et al.
Pubblicazione: (2024)

CogToM: A Comprehensive Theory of Mind Benchmark inspired by Human Cognition for Large Language Models
di: Tong, Haibo, et al.
Pubblicazione: (2026)

Language Bias in Information Retrieval: The Nature of the Beast and Mitigation Methods
di: Yang, Jinrui, et al.
Pubblicazione: (2025)

KnowBias: Mitigating Social Bias in LLMs via Know-Bias Neuron Enhancement
di: Pan, Jinhao, et al.
Pubblicazione: (2026)

Backdooring Bias in Large Language Models
di: Das, Anudeep, et al.
Pubblicazione: (2026)

Regional Bias in Large Language Models
di: Gopinadh, M P V S, et al.
Pubblicazione: (2026)

LFTF: Locating First and Then Fine-Tuning for Mitigating Gender Bias in Large Language Models
di: Qin, Zhanyue, et al.
Pubblicazione: (2025)

Auto-Search and Refinement: An Automated Framework for Gender Bias Mitigation in Large Language Models
di: Xu, Yue, et al.
Pubblicazione: (2025)

Mitigating Boundary Ambiguity and Inherent Bias for Text Classification in the Era of Large Language Models
di: Lu, Zhenyi, et al.
Pubblicazione: (2024)

Mitigating Selection Bias in Large Language Models via Permutation-Aware GRPO
di: Zheng, Jinquan, et al.
Pubblicazione: (2026)