:: Library Catalog

Image de couverture de livre

Enregistré dans:

Détails bibliographiques
Auteurs principaux:	Shan, Zhengyang, Mueller, Aaron
Format:	Preprint
Publié:	2025
Sujets:	Computation and Language
Accès en ligne:	https://arxiv.org/abs/2512.20796
Tags:	Ajouter un tag Pas de tags, Soyez le premier à ajouter un tag!

Documents similaires

MABR: Multilayer Adversarial Bias Removal Without Prior Bias Knowledge
par: Yin, Maxwell J., et autres
Publié: (2024)

Obscured but Not Erased: Evaluating Nationality Bias in LLMs via Name-Based Bias Benchmarks
par: Pelosio, Giulio, et autres
Publié: (2025)

Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models
par: Wang, Huazheng, et autres
Publié: (2025)

In-Context Learning Without Copying
par: Sahin, Kerem, et autres
Publié: (2025)

RedacBench: Can AI Erase Your Secrets?
par: Jeon, Hyunjun, et autres
Publié: (2026)

Elucidating Mechanisms of Demographic Bias in LLMs for Healthcare
par: Ahsan, Hiba, et autres
Publié: (2025)

Arithmetic Without Algorithms: Language Models Solve Math With a Bag of Heuristics
par: Nikankin, Yaniv, et autres
Publié: (2024)

Missed Causes and Ambiguous Effects: Counterfactuals Pose Challenges for Interpreting Neural Networks
par: Mueller, Aaron
Publié: (2024)

Can Fine-Tuning Erase Your Edits? On the Fragile Coexistence of Knowledge Editing and Adaptation
par: Cheng, Yinjie, et autres
Publié: (2025)

Incremental Sentence Processing Mechanisms in Autoregressive Transformer Language Models
par: Hanna, Michael, et autres
Publié: (2024)

Assessing the Reliability of LLMs Annotations in the Context of Demographic Bias and Model Explanation
par: Mohammadi, Hadi, et autres
Publié: (2025)

Demographic and Linguistic Bias Evaluation in Omnimodal Language Models
par: Elobaid, Alaa
Publié: (2026)

Gender Inclusivity Fairness Index (GIFI): A Multilevel Framework for Evaluating Gender Diversity in Large Language Models
par: Shan, Zhengyang, et autres
Publié: (2025)

Order-Independence Without Fine Tuning
par: McIlroy-Young, Reid, et autres
Publié: (2024)

Different Demographic Cues Yield Inconsistent Conclusions About LLM Personalization and Bias
par: Tonneau, Manuel, et autres
Publié: (2026)

Leveraging Prototypical Representations for Mitigating Social Bias without Demographic Information
par: Iskander, Shadi, et autres
Publié: (2024)

Dissecting Bias in LLMs: A Mechanistic Interpretability Perspective
par: Chandna, Bhavik, et autres
Publié: (2025)

LLMs Do Not See Age: Assessing Demographic Bias in Automated Systematic Review Synthesis
par: Aghaebe, Favour Yahdii, et autres
Publié: (2025)

A Novel Method to Metigate Demographic and Expert Bias in ICD Coding with Causal Inference
par: Zhang, Bin, et autres
Publié: (2024)

Erasing Conceptual Knowledge from Language Models
par: Gandikota, Rohit, et autres
Publié: (2024)

Analysing Moral Bias in Finetuned LLMs through Mechanistic Interpretability
par: Raimondi, Bianca, et autres
Publié: (2025)

Eliminating Position Bias of Language Models: A Mechanistic Approach
par: Wang, Ziqi, et autres
Publié: (2024)

Evaluating LLMs for Demographic-Targeted Social Bias Detection: A Comprehensive Benchmark Study
par: Majumdar, Ayan, et autres
Publié: (2025)

The Unequal Opportunities of Large Language Models: Revealing Demographic Bias through Job Recommendations
par: Salinas, Abel, et autres
Publié: (2023)

Trustworthy Social Bias Measurement
par: Bommasani, Rishi, et autres
Publié: (2022)

Characterizing the Role of Similarity in the Property Inferences of Language Models
par: Rodriguez, Juan Diego, et autres
Publié: (2024)

Web-Browsing LLMs Can Access Social Media Profiles and Infer User Demographics
par: Alizadeh, Meysam, et autres
Publié: (2025)

Does the Prompt-based Large Language Model Recognize Students' Demographics and Introduce Bias in Essay Scoring?
par: Yang, Kaixun, et autres
Publié: (2025)

Reasoning Models Can Be Effective Without Thinking
par: Ma, Wenjie, et autres
Publié: (2025)

How to Evaluate Automatic Speech Recognition: Comparing Different Performance and Bias Measures
par: Patel, Tanvina, et autres
Publié: (2025)

Sometimes the Model doth Preach: Quantifying Religious Bias in Open LLMs through Demographic Analysis in Asian Nations
par: Shankar, Hari, et autres
Publié: (2025)

UniErase: Towards Balanced and Precise Unlearning in Language Models
par: Yu, Miao, et autres
Publié: (2025)

Don't Erase, Inform! Detecting and Contextualizing Harmful Language in Cultural Heritage Collections
par: Mastromichalakis, Orfeas Menis, et autres
Publié: (2025)

Can LLMs Generate Visualizations with Dataless Prompts?
par: Coelho, Darius, et autres
Publié: (2024)

Large Language Models Share Representations of Latent Grammatical Concepts Across Typologically Diverse Languages
par: Brinkmann, Jannik, et autres
Publié: (2025)

In-context Learning Generalizes, But Not Always Robustly: The Case of Syntax
par: Mueller, Aaron, et autres
Publié: (2023)

Who Gets Which Message? Auditing Demographic Bias in LLM-Generated Targeted Text
par: Islam, Tunazzina
Publié: (2026)

Steering Without Breaking: Mechanistically Informed Interventions for Discrete Diffusion Language Models
par: Zhou, Hanhan, et autres
Publié: (2026)

Sonos Voice Control Bias Assessment Dataset: A Methodology for Demographic Bias Assessment in Voice Assistants
par: Sekkat, Chloé, et autres
Publié: (2024)

Mechanistic Diagnostics of Spatial Lexical Bias in Multimodal Large Language Model Spatial Reasoning
par: Ma, Chuang, et autres
Publié: (2026)