Salvato in:
| Autori principali: | Huang, Fan, Zhang, Songheng, Kwak, Haewoon, An, Jisun |
|---|---|
| Natura: | Preprint |
| Pubblicazione: |
2026
|
| Soggetti: | |
| Accesso online: | https://arxiv.org/abs/2604.01366 |
| Tags: |
Aggiungi Tag
Nessun Tag, puoi essere il primo ad aggiungerne!!
|
Documenti analoghi
Understanding Moral Reasoning Trajectories in Large Language Models: Toward Probing-Based Explainability
di: Huang, Fan, et al.
Pubblicazione: (2026)
di: Huang, Fan, et al.
Pubblicazione: (2026)
Vulnerability of LLMs' Stated Beliefs? LLMs Belief Resistance Check Through Strategic Persuasive Conversation Interventions
di: Huang, Fan, et al.
Pubblicazione: (2026)
di: Huang, Fan, et al.
Pubblicazione: (2026)
ToBlend: Token-Level Blending With an Ensemble of LLMs to Attack AI-Generated Text Detection
di: Huang, Fan, et al.
Pubblicazione: (2024)
di: Huang, Fan, et al.
Pubblicazione: (2024)
ChatGPT Rates Natural Language Explanation Quality Like Humans: But on Which Scales?
di: Huang, Fan, et al.
Pubblicazione: (2024)
di: Huang, Fan, et al.
Pubblicazione: (2024)
Can Lessons From Human Teams Be Applied to Multi-Agent Systems? The Role of Structure, Diversity, and Interaction Dynamics
di: Muralidharan, Rasika, et al.
Pubblicazione: (2025)
di: Muralidharan, Rasika, et al.
Pubblicazione: (2025)
XChoice: Explainable Evaluation of AI-Human Alignment in LLM-based Constrained Choice Decision Making
di: Qi, Weihong, et al.
Pubblicazione: (2026)
di: Qi, Weihong, et al.
Pubblicazione: (2026)
Can we trust the evaluation on ChatGPT?
di: Aiyappa, Rachith, et al.
Pubblicazione: (2023)
di: Aiyappa, Rachith, et al.
Pubblicazione: (2023)
Benchmarking zero-shot stance detection with FlanT5-XXL: Insights from training data, prompting, and decoding strategies into its near-SoTA performance
di: Aiyappa, Rachith, et al.
Pubblicazione: (2024)
di: Aiyappa, Rachith, et al.
Pubblicazione: (2024)
PluRule: A Benchmark for Moderating Pluralistic Communities on Social Media
di: Kachwala, Zoher, et al.
Pubblicazione: (2026)
di: Kachwala, Zoher, et al.
Pubblicazione: (2026)
Measuring and Mitigating Bias in Code Generated by Large Language Models
di: Chen, Yuxi, et al.
Pubblicazione: (2026)
di: Chen, Yuxi, et al.
Pubblicazione: (2026)
A Cross-Cultural Comparison of LLM-based Public Opinion Simulation: Evaluating Chinese and U.S. Models on Diverse Societies
di: Qi, Weihong, et al.
Pubblicazione: (2025)
di: Qi, Weihong, et al.
Pubblicazione: (2025)
BiasBusters: Uncovering and Mitigating Tool Selection Bias in Large Language Models
di: Blankenstein, Thierry, et al.
Pubblicazione: (2025)
di: Blankenstein, Thierry, et al.
Pubblicazione: (2025)
Mitigating Propensity Bias of Large Language Models for Recommender Systems
di: Zhang, Guixian, et al.
Pubblicazione: (2024)
di: Zhang, Guixian, et al.
Pubblicazione: (2024)
Locating and Mitigating Gender Bias in Large Language Models
di: Cai, Yuchen, et al.
Pubblicazione: (2024)
di: Cai, Yuchen, et al.
Pubblicazione: (2024)
Mitigating Cognitive Bias in RLHF by Altering Rationality
di: Horter, Tiffany, et al.
Pubblicazione: (2026)
di: Horter, Tiffany, et al.
Pubblicazione: (2026)
CogLM: Tracking Cognitive Development of Large Language Models
di: Wang, Xinglin, et al.
Pubblicazione: (2024)
di: Wang, Xinglin, et al.
Pubblicazione: (2024)
Multi-Persona Thinking for Bias Mitigation in Large Language Models
di: Chen, Yuxing, et al.
Pubblicazione: (2026)
di: Chen, Yuxing, et al.
Pubblicazione: (2026)
Likelihood-based Mitigation of Evaluation Bias in Large Language Models
di: Oi, Masanari, et al.
Pubblicazione: (2024)
di: Oi, Masanari, et al.
Pubblicazione: (2024)
Mitigating Gender Bias in Code Large Language Models via Model Editing
di: Qin, Zhanyue, et al.
Pubblicazione: (2024)
di: Qin, Zhanyue, et al.
Pubblicazione: (2024)
BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses
di: Xu, Xin, et al.
Pubblicazione: (2025)
di: Xu, Xin, et al.
Pubblicazione: (2025)
Enhancing Diagnostic Accuracy through Multi-Agent Conversations: Using Large Language Models to Mitigate Cognitive Bias
di: Ke, Yu He, et al.
Pubblicazione: (2024)
di: Ke, Yu He, et al.
Pubblicazione: (2024)
Simulating a Bias Mitigation Scenario in Large Language Models
di: Kiashemshaki, Kiana, et al.
Pubblicazione: (2025)
di: Kiashemshaki, Kiana, et al.
Pubblicazione: (2025)
GenderAlign: An Alignment Dataset for Mitigating Gender Bias in Large Language Models
di: Zhang, Tao, et al.
Pubblicazione: (2024)
di: Zhang, Tao, et al.
Pubblicazione: (2024)
Large Language Model Bias Mitigation from the Perspective of Knowledge Editing
di: Chen, Ruizhe, et al.
Pubblicazione: (2024)
di: Chen, Ruizhe, et al.
Pubblicazione: (2024)
CogGPT: Unleashing the Power of Cognitive Dynamics on Large Language Models
di: Lv, Yaojia, et al.
Pubblicazione: (2024)
di: Lv, Yaojia, et al.
Pubblicazione: (2024)
Attribution Bias in Large Language Models
di: Berman, Eliza, et al.
Pubblicazione: (2026)
di: Berman, Eliza, et al.
Pubblicazione: (2026)
Bias Fitting to Mitigate Length Bias of Reward Model in RLHF
di: Zhao, Kangwen, et al.
Pubblicazione: (2025)
di: Zhao, Kangwen, et al.
Pubblicazione: (2025)
BiasLab: A Multilingual, Dual-Framing Framework for Robust Measurement of Output-Level Bias in Large Language Models
di: Guey, William, et al.
Pubblicazione: (2026)
di: Guey, William, et al.
Pubblicazione: (2026)
Instructed to Bias: Instruction-Tuned Language Models Exhibit Emergent Cognitive Bias
di: Itzhak, Itay, et al.
Pubblicazione: (2023)
di: Itzhak, Itay, et al.
Pubblicazione: (2023)
Understanding and Mitigating Tokenization Bias in Language Models
di: Phan, Buu, et al.
Pubblicazione: (2024)
di: Phan, Buu, et al.
Pubblicazione: (2024)
Identifying and Mitigating Social Bias Knowledge in Language Models
di: Chen, Ruizhe, et al.
Pubblicazione: (2024)
di: Chen, Ruizhe, et al.
Pubblicazione: (2024)
CogToM: A Comprehensive Theory of Mind Benchmark inspired by Human Cognition for Large Language Models
di: Tong, Haibo, et al.
Pubblicazione: (2026)
di: Tong, Haibo, et al.
Pubblicazione: (2026)
Language Bias in Information Retrieval: The Nature of the Beast and Mitigation Methods
di: Yang, Jinrui, et al.
Pubblicazione: (2025)
di: Yang, Jinrui, et al.
Pubblicazione: (2025)
KnowBias: Mitigating Social Bias in LLMs via Know-Bias Neuron Enhancement
di: Pan, Jinhao, et al.
Pubblicazione: (2026)
di: Pan, Jinhao, et al.
Pubblicazione: (2026)
Backdooring Bias in Large Language Models
di: Das, Anudeep, et al.
Pubblicazione: (2026)
di: Das, Anudeep, et al.
Pubblicazione: (2026)
Regional Bias in Large Language Models
di: Gopinadh, M P V S, et al.
Pubblicazione: (2026)
di: Gopinadh, M P V S, et al.
Pubblicazione: (2026)
LFTF: Locating First and Then Fine-Tuning for Mitigating Gender Bias in Large Language Models
di: Qin, Zhanyue, et al.
Pubblicazione: (2025)
di: Qin, Zhanyue, et al.
Pubblicazione: (2025)
Auto-Search and Refinement: An Automated Framework for Gender Bias Mitigation in Large Language Models
di: Xu, Yue, et al.
Pubblicazione: (2025)
di: Xu, Yue, et al.
Pubblicazione: (2025)
Mitigating Boundary Ambiguity and Inherent Bias for Text Classification in the Era of Large Language Models
di: Lu, Zhenyi, et al.
Pubblicazione: (2024)
di: Lu, Zhenyi, et al.
Pubblicazione: (2024)
Mitigating Selection Bias in Large Language Models via Permutation-Aware GRPO
di: Zheng, Jinquan, et al.
Pubblicazione: (2026)
di: Zheng, Jinquan, et al.
Pubblicazione: (2026)
Documenti analoghi
-
Understanding Moral Reasoning Trajectories in Large Language Models: Toward Probing-Based Explainability
di: Huang, Fan, et al.
Pubblicazione: (2026) -
Vulnerability of LLMs' Stated Beliefs? LLMs Belief Resistance Check Through Strategic Persuasive Conversation Interventions
di: Huang, Fan, et al.
Pubblicazione: (2026) -
ToBlend: Token-Level Blending With an Ensemble of LLMs to Attack AI-Generated Text Detection
di: Huang, Fan, et al.
Pubblicazione: (2024) -
ChatGPT Rates Natural Language Explanation Quality Like Humans: But on Which Scales?
di: Huang, Fan, et al.
Pubblicazione: (2024) -
Can Lessons From Human Teams Be Applied to Multi-Agent Systems? The Role of Structure, Diversity, and Interaction Dynamics
di: Muralidharan, Rasika, et al.
Pubblicazione: (2025)