Enregistré dans:
| Auteurs principaux: | Shan, Zhengyang, Mueller, Aaron |
|---|---|
| Format: | Preprint |
| Publié: |
2025
|
| Sujets: | |
| Accès en ligne: | https://arxiv.org/abs/2512.20796 |
| Tags: |
Ajouter un tag
Pas de tags, Soyez le premier à ajouter un tag!
|
Documents similaires
MABR: Multilayer Adversarial Bias Removal Without Prior Bias Knowledge
par: Yin, Maxwell J., et autres
Publié: (2024)
par: Yin, Maxwell J., et autres
Publié: (2024)
Obscured but Not Erased: Evaluating Nationality Bias in LLMs via Name-Based Bias Benchmarks
par: Pelosio, Giulio, et autres
Publié: (2025)
par: Pelosio, Giulio, et autres
Publié: (2025)
Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models
par: Wang, Huazheng, et autres
Publié: (2025)
par: Wang, Huazheng, et autres
Publié: (2025)
In-Context Learning Without Copying
par: Sahin, Kerem, et autres
Publié: (2025)
par: Sahin, Kerem, et autres
Publié: (2025)
RedacBench: Can AI Erase Your Secrets?
par: Jeon, Hyunjun, et autres
Publié: (2026)
par: Jeon, Hyunjun, et autres
Publié: (2026)
Elucidating Mechanisms of Demographic Bias in LLMs for Healthcare
par: Ahsan, Hiba, et autres
Publié: (2025)
par: Ahsan, Hiba, et autres
Publié: (2025)
Arithmetic Without Algorithms: Language Models Solve Math With a Bag of Heuristics
par: Nikankin, Yaniv, et autres
Publié: (2024)
par: Nikankin, Yaniv, et autres
Publié: (2024)
Missed Causes and Ambiguous Effects: Counterfactuals Pose Challenges for Interpreting Neural Networks
par: Mueller, Aaron
Publié: (2024)
par: Mueller, Aaron
Publié: (2024)
Can Fine-Tuning Erase Your Edits? On the Fragile Coexistence of Knowledge Editing and Adaptation
par: Cheng, Yinjie, et autres
Publié: (2025)
par: Cheng, Yinjie, et autres
Publié: (2025)
Incremental Sentence Processing Mechanisms in Autoregressive Transformer Language Models
par: Hanna, Michael, et autres
Publié: (2024)
par: Hanna, Michael, et autres
Publié: (2024)
Assessing the Reliability of LLMs Annotations in the Context of Demographic Bias and Model Explanation
par: Mohammadi, Hadi, et autres
Publié: (2025)
par: Mohammadi, Hadi, et autres
Publié: (2025)
Demographic and Linguistic Bias Evaluation in Omnimodal Language Models
par: Elobaid, Alaa
Publié: (2026)
par: Elobaid, Alaa
Publié: (2026)
Gender Inclusivity Fairness Index (GIFI): A Multilevel Framework for Evaluating Gender Diversity in Large Language Models
par: Shan, Zhengyang, et autres
Publié: (2025)
par: Shan, Zhengyang, et autres
Publié: (2025)
Order-Independence Without Fine Tuning
par: McIlroy-Young, Reid, et autres
Publié: (2024)
par: McIlroy-Young, Reid, et autres
Publié: (2024)
Different Demographic Cues Yield Inconsistent Conclusions About LLM Personalization and Bias
par: Tonneau, Manuel, et autres
Publié: (2026)
par: Tonneau, Manuel, et autres
Publié: (2026)
Leveraging Prototypical Representations for Mitigating Social Bias without Demographic Information
par: Iskander, Shadi, et autres
Publié: (2024)
par: Iskander, Shadi, et autres
Publié: (2024)
Dissecting Bias in LLMs: A Mechanistic Interpretability Perspective
par: Chandna, Bhavik, et autres
Publié: (2025)
par: Chandna, Bhavik, et autres
Publié: (2025)
LLMs Do Not See Age: Assessing Demographic Bias in Automated Systematic Review Synthesis
par: Aghaebe, Favour Yahdii, et autres
Publié: (2025)
par: Aghaebe, Favour Yahdii, et autres
Publié: (2025)
A Novel Method to Metigate Demographic and Expert Bias in ICD Coding with Causal Inference
par: Zhang, Bin, et autres
Publié: (2024)
par: Zhang, Bin, et autres
Publié: (2024)
Erasing Conceptual Knowledge from Language Models
par: Gandikota, Rohit, et autres
Publié: (2024)
par: Gandikota, Rohit, et autres
Publié: (2024)
Analysing Moral Bias in Finetuned LLMs through Mechanistic Interpretability
par: Raimondi, Bianca, et autres
Publié: (2025)
par: Raimondi, Bianca, et autres
Publié: (2025)
Eliminating Position Bias of Language Models: A Mechanistic Approach
par: Wang, Ziqi, et autres
Publié: (2024)
par: Wang, Ziqi, et autres
Publié: (2024)
Evaluating LLMs for Demographic-Targeted Social Bias Detection: A Comprehensive Benchmark Study
par: Majumdar, Ayan, et autres
Publié: (2025)
par: Majumdar, Ayan, et autres
Publié: (2025)
The Unequal Opportunities of Large Language Models: Revealing Demographic Bias through Job Recommendations
par: Salinas, Abel, et autres
Publié: (2023)
par: Salinas, Abel, et autres
Publié: (2023)
Trustworthy Social Bias Measurement
par: Bommasani, Rishi, et autres
Publié: (2022)
par: Bommasani, Rishi, et autres
Publié: (2022)
Characterizing the Role of Similarity in the Property Inferences of Language Models
par: Rodriguez, Juan Diego, et autres
Publié: (2024)
par: Rodriguez, Juan Diego, et autres
Publié: (2024)
Web-Browsing LLMs Can Access Social Media Profiles and Infer User Demographics
par: Alizadeh, Meysam, et autres
Publié: (2025)
par: Alizadeh, Meysam, et autres
Publié: (2025)
Does the Prompt-based Large Language Model Recognize Students' Demographics and Introduce Bias in Essay Scoring?
par: Yang, Kaixun, et autres
Publié: (2025)
par: Yang, Kaixun, et autres
Publié: (2025)
Reasoning Models Can Be Effective Without Thinking
par: Ma, Wenjie, et autres
Publié: (2025)
par: Ma, Wenjie, et autres
Publié: (2025)
How to Evaluate Automatic Speech Recognition: Comparing Different Performance and Bias Measures
par: Patel, Tanvina, et autres
Publié: (2025)
par: Patel, Tanvina, et autres
Publié: (2025)
Sometimes the Model doth Preach: Quantifying Religious Bias in Open LLMs through Demographic Analysis in Asian Nations
par: Shankar, Hari, et autres
Publié: (2025)
par: Shankar, Hari, et autres
Publié: (2025)
UniErase: Towards Balanced and Precise Unlearning in Language Models
par: Yu, Miao, et autres
Publié: (2025)
par: Yu, Miao, et autres
Publié: (2025)
Don't Erase, Inform! Detecting and Contextualizing Harmful Language in Cultural Heritage Collections
par: Mastromichalakis, Orfeas Menis, et autres
Publié: (2025)
par: Mastromichalakis, Orfeas Menis, et autres
Publié: (2025)
Can LLMs Generate Visualizations with Dataless Prompts?
par: Coelho, Darius, et autres
Publié: (2024)
par: Coelho, Darius, et autres
Publié: (2024)
Large Language Models Share Representations of Latent Grammatical Concepts Across Typologically Diverse Languages
par: Brinkmann, Jannik, et autres
Publié: (2025)
par: Brinkmann, Jannik, et autres
Publié: (2025)
In-context Learning Generalizes, But Not Always Robustly: The Case of Syntax
par: Mueller, Aaron, et autres
Publié: (2023)
par: Mueller, Aaron, et autres
Publié: (2023)
Who Gets Which Message? Auditing Demographic Bias in LLM-Generated Targeted Text
par: Islam, Tunazzina
Publié: (2026)
par: Islam, Tunazzina
Publié: (2026)
Steering Without Breaking: Mechanistically Informed Interventions for Discrete Diffusion Language Models
par: Zhou, Hanhan, et autres
Publié: (2026)
par: Zhou, Hanhan, et autres
Publié: (2026)
Sonos Voice Control Bias Assessment Dataset: A Methodology for Demographic Bias Assessment in Voice Assistants
par: Sekkat, Chloé, et autres
Publié: (2024)
par: Sekkat, Chloé, et autres
Publié: (2024)
Mechanistic Diagnostics of Spatial Lexical Bias in Multimodal Large Language Model Spatial Reasoning
par: Ma, Chuang, et autres
Publié: (2026)
par: Ma, Chuang, et autres
Publié: (2026)
Documents similaires
-
MABR: Multilayer Adversarial Bias Removal Without Prior Bias Knowledge
par: Yin, Maxwell J., et autres
Publié: (2024) -
Obscured but Not Erased: Evaluating Nationality Bias in LLMs via Name-Based Bias Benchmarks
par: Pelosio, Giulio, et autres
Publié: (2025) -
Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models
par: Wang, Huazheng, et autres
Publié: (2025) -
In-Context Learning Without Copying
par: Sahin, Kerem, et autres
Publié: (2025) -
RedacBench: Can AI Erase Your Secrets?
par: Jeon, Hyunjun, et autres
Publié: (2026)